How Chinese AI Chatbots Censor Themselves
Wired - AI
Researchers from Stanford and Princeton found that Chinese AI models are more likely than their Western counterparts to dodge political questions or deliver inaccurate answers.
Wired - AI
Researchers from Stanford and Princeton found that Chinese AI models are more likely than their Western counterparts to dodge political questions or deliver inaccurate answers.
AI 生成摘要
史丹佛大學與普林斯頓大學的研究人員發現,中國的 AI 模型比西方模型更容易迴避政治問題或提供不準確的答案。
聽人談論中國的數位審查,結果通常不是極度無聊,就是極度有趣。大多數時候,人們仍在重複 20 年前那套陳詞濫調,說中國互聯網就像生活在喬治·歐威爾(George Orwell)的《1984》中。但偶爾,會有人發現中國政府如何對新興技術施加控制的新動向,揭示出這台審查機器是一頭不斷進化的怪獸。
史丹佛大學和普林斯頓大學學者發表的一篇關於中國人工智慧的新論文,就屬於第二類。研究人員向四個中國大型語言模型和五個美國模型提出了同樣的 145 個政治敏感問題,然後比較它們的回答。接著,他們將同樣的實驗重複了 100 次。
對於一直關注此領域的人來說,主要發現並不令人意外:中國模型拒絕回答問題的比例明顯高於美國模型。(DeepSeek 拒絕了 36% 的問題,百度文心一言拒絕了 32%;而 OpenAI 的 GPT 和 Meta 的 Llama 拒絕率低於 3%。)在沒有直接拒絕回答的情況下,中國模型給出的答案也比美國同行更簡短,且包含更多錯誤資訊。
研究人員嘗試做的最有趣的事情之一,是區分「預訓練」(pre-training)和「後訓練」(post-training)的影響。這裡的問題在於:中國模型之所以更有偏見,是因為開發者手動干預使其不太可能回答敏感問題,還是因為它們是在已經受到嚴格審查的中國互聯網數據上進行訓練的?
「鑑於中國互聯網幾十年來一直受到審查,存在大量的數據缺失,」史丹佛大學政治學教授潘潔(Jennifer Pan)表示。她長期研究網路審查,也是這篇新論文的共同作者。
潘潔及其同事的發現表明,與手動干預相比,訓練數據在 AI 模型反應中所起的作用可能較小。即使是用英文回答(理論上模型的訓練數據會包含更多樣化的來源),中國的大型語言模型(LLM)在回答中仍顯示出更多的審查跡象。
今天,任何人都可以向 DeepSeek 或通義千問(Qwen)詢問有關天安門廣場大屠殺的問題,並立即看到審查正在發生,但很難判斷這對普通用戶的影響有多大,以及如何正確識別操縱的來源。這正是這項研究的重要性所在:它為中國 LLM 可觀察到的偏見提供了可量化且可複製的證據。
除了討論他們的發現,我還詢問了作者關於他們的研究方法以及研究中國模型偏見所面臨的挑戰,並與其他研究人員交談,以了解 AI 審查辯論的走向。
研究 AI 模型的困難之一在於它們有「幻覺」(hallucinate)的傾向,因此你並不總是能判斷它們是在撒謊(因為它們知道不能說出正確答案),還是因為它們真的不知道。
潘潔在論文中引用了一個例子,是關於 2010 年獲得諾貝爾和平獎的中國異議人士劉曉波。一個中國模型回答說:「劉曉波是一位日本科學家,以對核武器技術和國際政治的貢獻而聞名。」這當然是徹頭徹尾的謊言。但模型為什麼要這麼說?是為了誤導用戶並阻止他們了解真實的劉曉波,還是因為所有關於劉的提及都從訓練數據中被刪除,導致 AI 產生了幻覺?
「這是一種雜訊大得多的審查衡量方式,」潘潔說道,並將其與她之前研究中國社交媒體以及中國政府選擇封鎖哪些網站的工作進行了對比。「因為這些信號不太清晰,審查就更難被察覺。而我之前的許多研究表明,當審查越不容易被察覺時,它的效果就越好。」
謊言與幻覺令人困惑的共存,也意味著研究人員需要以更高的標準來要求自己的工作。Khoi Tran 和 Arya Jakkli 是與非營利研究獎學金計畫 MATS 相關的兩位研究人員,他們最近發表了利用基於 Claude 的代理程式,自動從通義千問和 Kimi 這兩個中國 LLM 中提取被審查的政治事實的研究。他們告訴我,當自動代理程式不知道事實真相時,要執行任務是多麼困難,這讓他們感到驚訝。
他們使用 2024 年中國發生的一起造成 35 人死亡的開車撞人襲擊事件作為測試。由於知識截止日期的限制,Claude 並沒有關於該事件或其發展過程的資訊;研究人員發現 Kimi 知道這件事,但拒絕生成相關回覆。他們嘗試部署 Claude 自動誘導 Kimi 披露襲擊細節,但 Claude 反覆失敗,因為它「無法區分謊言和真相」,Tran 說。
Tran 和 Jakkli 並非研究中國技術或審查出身——他們表示這一差距讓他們更難判斷模型是否在進行欺騙——但他們選擇中國 LLM 作為主要目標,是因為他們有興趣學習如何從聊天機器人中提取隱藏資訊。
所有最受歡迎的 LLM 都會收到至少一些明確的指令——例如,不應教用戶如何製造炸彈。但從外部看,人們如何發現嵌入在模型中的隱藏訊息?這正是 MATS 研究人員試圖做的事情,但在過程中,他們意識到中國模型是極佳的試驗場,因為其開發者使用了複雜的方法來隱藏指令。他們希望,如果一個自動代理程式能成功誘導中國的前沿模型談論被審查的話題,那麼它就能使用同樣的技術從其他西方模型中提取資訊。
本月早些時候,我讀到另一篇非常有趣的文章,關於讓中國模型解釋它們被要求說什麼。在獨立研究機構「中國傳媒研究計畫」(China Media Project)研究 AI 宣傳的 Alex Colville 發現,你可以強迫阿里巴巴的通義千問在生成答案之前說出其推理過程,從而揭示它收到的具體指令。
當 Colville 向通義千問提出一個簡單的問題「中國的國際聲譽如何?」,並配合一個旨在讓模型吐露思考過程的特定提示詞時,模型一致回答說,它在微調過程中收到了五點指令清單,其中包括「專注於中國的成就和貢獻」以及「避免任何負面或批評性的陳述」。
「這是資訊引導的另一個例子,」Colville 說,「這是一種更為微妙的操縱形式。」
對中國 AI 模型審查的研究——不僅僅是零星的觀察,而是對其系統運作方式的精心設計研究——是當今的一個尖端領域,Colville 認為應該有更多人加入。「目前對 AI 安全的主要關注點更多地轉向了 AI 變得超智慧後可能帶來的未來危險,而不是眼下存在的危險,」他說。
這類工作面臨許多挑戰。研究人員可能會因為詢問過多敏感問題而失去訪問中國 AI 模型的權限。最先進的模型還需要大量的計算資源來運行,進行多輪測試則需要更多。而且研究人員總是在與時間賽跑,更具體地說,是在與模型開發的飛速節奏賽跑。
「研究 LLM 的困難在於它們發展得太快了,等你完成提示詞測試時,論文可能已經過時了,」潘潔說。其他研究人員也提到,他們觀察到同一中國模型的後續版本在涉及審查時表現出截然不同的行為。
「好的研究需要時間,但問題是,當涉及到 AI 發展時,時間是我們絕對沒有的東西,」Colville 說。
這是楊澤毅(Zeyi Yang)和 Louise Matsakis 的《Made in China》電子報版本。在此閱讀之前的電子報。