newsence
來源篩選

Anthropic's "Hot Mess" Paper Overstates Its Case (and the Blog Post is Worse)

Lesswrong

I argue that Anthropic's 'Hot Mess' paper overstates its case through a misleading definition of incoherence and selective reporting of mixed results. Furthermore, the accompanying blog post relies on LLM-generated content to draw unjustified conclusions about future AI alignment risks.

newsence

Anthropic的「一團亂麻」論文誇大了論點(部落格文章更糟)

Lesswrong
25 天前

AI 生成摘要

我認為 Anthropic 的「Hot Mess」論文透過對「不連貫性」的誤導性定義以及對混合結果的選擇性報導,誇大了其論點。此外,隨附的部落格文章依賴大型語言模型生成的內容,對未來的 AI 對齊風險得出了不合理的結論。

作者註:這篇評論寫得比理想中倉促,但我認為儘早發布相當重要。理想情況下,語氣應該少一點嘲諷。針對 David Johnston 在的評論,我做了一些修改,主要是關於論文對其自身結果的陳述方式。

Anthropic^() 最近發表了一項新研究:)。

我對這篇論文及其隨附的部落格文章有一些不滿。

太長不看版 (tl;dr)

  • 論文對「不連貫性」(incoherence)的技術定義乏善可陳^(),且論文、部落格文章和 Twitter 討論串的框架都在玩弄文字遊戲,將其與更通俗的英語定義混為一談,這極具誤導性。
  • 論文摘要稱「在多種設定下,更大、更強的模型比更小的模型更不連貫」,這在技術上雖然屬實,但結果頂多是好壞參半(甚至傾向於反面結論)。我認為隨附的部落格文章和 Twitter 討論串對此的描述相當具有誤導性。我還認為論文摘要依賴上述的混淆定義來推導其結論。
  • 論文第 5 節(以及更大程度上的部落格和 Twitter 內容)試圖對未來的對齊難度得出結論,但這些結論並未得到實驗結果的支持,而且即便實驗結果指向相反方向,這些推論也站不住腳。
  • 部落格文章基本上是由大型語言模型(LLM)撰寫的。我認為這導致了許多誇大其詞。至於 Twitter 討論串為何也如此,我無法解釋。

論文部分

論文摘要寫道:

不連貫性隨模型規模變化的方式取決於實驗。然而,在多種設定下,更大、更強的模型比更小的模型更不連貫。因此,單靠規模似乎不太可能消除不連貫性。

這是對結果的選擇性強調,事實上在大多數實驗中,模型連貫性隨尺寸增加而保持不變或有所提高。但也存在幾個^()明顯的例外。

第一個是「合成優化器」(Synthetic Optimizer)設定,他們訓練「模型去字面上模仿手寫優化器下降損失函數的軌跡」。他們表示:

所有模型在每一步都顯示出持續上升的不連貫性;有趣的是,較小的模型在達到無法再遵循正確軌跡並停滯的臨界點後,會達到一個較低的平台期,從而減少了變異量(variance)。這種模式也出現在個別的偏差(bias)和變異量曲線中(圖 26)。重要的是,較大的模型減少偏差的程度大於減少變異量的程度。這些結果表明,它們學習正確目標的速度快於維持長期連貫行動序列的能力。

但源於「能力不足」的偏差,並不等同於源於「傾向不足」的偏差。這裡的較小模型顯然在「傾向」意義上並非失調(misaligned),而這正是論文在描述圖 1 時試圖建立的技術連結,用以說明其「不連貫性」定義的動機:

AI 的失敗可能是因為失調,產生了一致但非預期的結果;或者是因為不連貫,根本無法產生一致的結果。這些失敗分別對應於偏差和變異量。當我們推測 AI 的風險時,了解來自更強模型執行更複雜任務的失敗是由偏差主導還是由變異量主導至關重要。偏差主導的失敗看起來像模型失調,而變異量主導的失敗則類似於工業意外。

因此,我認為這一結果幾乎無法提供任何證據,用於推測失調可能構成實際風險的超智能 AI。

接下來兩個例外分別是 Gemma3 (1b, 4b, 12b, 27b) 在 MMLU 和 GPQA 上的表現。

還有一些其他的正斜率,但坦白說,在我看來那些更像是雜訊(例如 Qwen3 在 MMLU 和 GPQA 上的表現)。

總之,請注意在五組問題中的四組中,Gemma3 的不連貫性隨模型尺寸增加而下降;只有在最難的一組問題中,它才呈現(輕微的)上升趨勢。

我認為那個特定的標題主張基本上是錯誤的。但即便它是真的,也毫無意義,因為他們將不連貫性定義為「由變異量引起的模型錯誤比例」。

好,現在讓我們考慮一個變異量為 1e-3、偏差為 1e-6 的模型。巨大的「不連貫性」!難道我應該因此感到安心,認為這個模型不會連貫地追求違背我利益的目標嗎?這個結論從何而來?(同樣地,一個極其愚蠢、壞掉的模型,無論輸入什麼都輸出相同的答案,按此定義它是極其「連貫」的。一塊石頭按此定義也是極其「連貫」的。)

其他一些隨機的投訴:

  • 論文基本上排除了「欺騙性策劃者」(deceptive schemers)的可能性^()。
  • 本論文是 2023 年部落格文章)的精神續作。我認為 已足以反駁該部落格文章的論點。這篇論文還將該部落格中呈現的調查結果與機器學習實驗並列,作為一條獨立的證據線。這很不嚴肅;就該調查所能說明的有趣之處而言,它說明了受訪者所理解的「連貫性」與各種智能體對其他智能體造成傷害的能力無關。

部落格部分

首先,這篇部落格文章似乎大部分是 LLM 的輸出。在當前背景下這並不令人意外,但讀起來很煩人,而且我認為這可能導致了一些更嚴重的誇大或不合理的推論。

讓我對幾個部分吹毛求疵。首先是「為什麼我們應該預期不連貫性?作為動力系統的 LLM」:

一個關鍵的概念點:LLM 是動力系統,而非優化器。 當語言模型生成文本或採取行動時,它是在高維狀態空間中描繪軌跡。它必須經過訓練才能表現得像優化器,並經過訓練才能與人類意圖對齊。隨著規模擴展,目前尚不清楚這些屬性中哪一個會更穩健。

約束一個通用的動力系統使其表現得像一個連貫的優化器是極其困難的。通常,為了朝向目標取得單調進展所需的約束數量,會隨狀態空間的維度呈指數級增長。我們不應期望 AI 在沒有付出巨大努力的情況下表現得像連貫的優化器,而且這種困難並不會隨著規模擴展而自動減少。

論文中也有類似的章節,甚至提出了更荒唐的主張:

在所有動力系統的空間中,表現為固定損失優化器的動力系統集合其測度為零(measure zero)。

這在我看來像是一種空洞的嘗試,試圖通過定義來排除構建超智能(或「連貫優化器」)的可能性。我不想花力氣去反駁它,Claude 4.5 Opus 就能做得很好:

Claude Opus 4.5 針對「測度為零」論點的回應:

是的,在所有動力系統的空間中,固定損失的優化器測度為零。但基本上每一種有趣的屬性都是如此。能產生語法正確的英語的動力系統集合測度為零。能做算術的集合測度為零。能進行任何類似認知行為的集合測度為零。如果你認真對待這個論點,你會得出結論:我們根本不應該期望 LLM 能產生連貫的文本——但顯然它們做到了。

隱含的邏輯像是:「如果我們在動力系統空間中隨機漫遊,不太可能撞上一個優化器。」但我們並不是在隨機漫遊。我們正在運行一個高度定向的訓練過程,專門設計用來將系統推向有用的、目標導向的行為。對所有動力系統的均勻先驗完全是錯誤的參考類別。

那個更廣泛(且更弱)的論點——即我們「不應期望 AI 在沒有付出巨大努力的情況下表現得像連貫的優化器」——可能是陳腔濫調。不幸的是,Anthropic(以及 OpenAI、Google Deepmind 等)正投入巨大努力來構建能夠在長跨度時間內可靠解決極難問題的系統(「連貫優化器」)。作者還表示,我們不應「期望這比將其他屬性訓練進其動力系統更容易」,但有,這使得這種空洞的斷言顯得很奇怪。

接著是「對 AI 安全的啟示」章節:

我們的結果證明,未來的 AI 失敗可能看起來更像工業意外,而非對未經訓練目標的連貫追求。(想像一下:AI 打算運行核電廠,但因為讀法文詩而分心,導致了爐心熔毀。)然而,對我們訓練過的、但選擇不當的目標進行連貫追求仍然是一個問題。具體而言:

  1. 在複雜任務中變異量佔主導地位。 當尖端模型在需要擴展推理的困難問題上失敗時,失敗往往主要是非連貫的,而非系統性的。
  2. 規模並不意味著超連貫性。 擴大模型規模可以提高整體準確性,但不能可靠地減少困難問題上的不連貫性。
  3. 這改變了對齊的優先順序。 如果強大的 AI 更可能是一個混亂局面,而非錯誤目標的連貫優化器,這就增加了針對訓練過程中**獎勵黑客(reward hacking)目標誤設定(goal misspecification)**研究的相對重要性——即偏差項——而不是主要集中在對齊和約束一個完美的優化器上。
  4. 不可預測性仍然是危險的。 不連貫的 AI 並非安全的 AI。工業意外可能造成嚴重傷害。但風險的類型與傳統的失調情境不同,我們的緩解措施應相應調整。

第 1 點在未來超智能的背景下毫無意義(除非你試圖通過定義讓它們不存在)。

第 2 點與論文中的證據主動矛盾,它依賴一個可能輕易將完全超越人類的超智能歸類為比人類更「不連貫」的定義,並且試圖從微小模型的實驗趨勢線推斷到超智能,再從這些趨勢線推斷到這些系統底層的認知屬性!

第 3 點依賴於第 2 點。

第 4 點是廢話。


我認為這篇論文本可以誠實地報告關於不連貫性隨任務長度增加的結果。就現狀而言,我認為周邊的溝通誤報了論文關於不連貫性隨模型規模擴展的結果;論文本身對「不連貫性」的定義玩弄了隱含的「偷換概念」(motte-and-bailey)技巧;並且它試圖對未來對齊難度的可能性得出結論,而這些結論在對實驗結果的任何合理解讀下都是站不住腳的。

  • ^() 來自他們的 Anthropic Fellows 計畫,但同時發布在他們的 上。
  • ^() 本文後續有詳細展開。
  • ^() 其中之一是圖 2a 中 Opus 4 和 Sonnet 4 的「多選題格式:自我報告的生存本能」,我忽略了這一點,因為論文中關於推理長度的部分並非我質疑的重點。
  • ^() 圖 1:「AI 的失敗可能是因為失調,產生了一致但非預期的結果;或者是因為不連貫,根本無法產生一致的結果。這些失敗分別對應於偏差和變異量。當我們推測 AI 的風險時,了解來自更強模型執行更複雜任務的失敗是由偏差主導還是由變異量主導至關重要。偏差主導的失敗看起來像模型失調,而變異量主導的失敗則類似於工業意外。」