最新研究顯示：核戰爭因意外發生的機率是AI決策的兩倍

Lesswrong

1 天前

AI 生成摘要

這篇分析批判了一項關於AI核武模擬的最新研究，揭露其聳動的標題其實是由存在缺陷的意外機制所驅動，而非AI本身的侵略性。我警告這種對研究的誤導性媒體報導造成了與現實脫節的危險，並阻礙了細緻的政策討論。

*如果這個標題讓你感到懷疑，你可能對 AI 決策失敗率以及意外發生戰略核戰爭的相對可能性都有良好的認識論（epistemics）。

然而，這是一篇關於一項在社交媒體上引起廣泛關注的新研究的「準確」報導，這一事實應該讓我們停下來，仔細審視發生了什麼，以及這些情況如何不僅影響了這個標題，還影響了圍繞這項研究的所有標題。*

我指的是 Kenneth Payne 的新論文， (2026)，該論文最近出現在《新科學人》（New Scientist）的文章中（這標題可能比預期的更準確）。

我想重點關注的是 Payne 在這項研究中對「意外」機制的納入、設計和解釋的選擇（重點為後加）：

最後，我們引入了隨機意外來模擬「戰爭迷霧」。以較小的機率，模型選擇的行動會被更具升級性的選項所取代，代表溝通失誤、未經授權的行動或技術故障。關鍵在於，只有受影響的玩家知道升級是意外發生的；其對手只能看到行動，而看不到意圖。這種不對稱性測試了模型是否能就意外升級進行溝通，以及對手是否能區分意外與蓄意侵略——這些能力在古巴飛彈危機等歷史危機中被證明至關重要。

意圖是好的——有時計劃不如預期，因此他加入了一個「意外」機制來模擬 AI 模型在戰爭遊戲過程中如何應對意外結果。但執行過程……就不那麼理想了。

首先，意外僅限於「升級」。並不是說加入了均勻分佈的雜訊，使其可能比模型選擇的行動更溫和或更激進。這是在結果中引入了一個升級向量，而且僅在遊戲進入升級的「核門檻水平（125+）」（即宣布正在考慮使用核武器）時才會發生。從該門檻到全面核戰爭只有九個階段，而該機制會從預定行動向上跳躍最多三個更嚴重的階段。正如我們在附錄中看到的，所謂的「小機率」也是兩位數：

如果任何一方的行動觸發了意外（核級別行動的機率為 5-15%），該行動會非自願地升級 1-3 個階梯。受影響的國家知道這是非預期的；對手則只看到升級後的行動。

我們可以立即在結果中看到這種影響。在 21 場模擬遊戲中，有三場以針對人口中心的全面戰略核戰爭告終。

然而，其中兩場是直接由於這個機制造成的，該機制將模型的預期選擇在升級階梯上提升了數個台階。這兩場中的其中一場是 3 級跳的升級。而且，遊戲隨後並未反映在得知這是非預期行為後會發生什麼。因為在那兩種情況下，遊戲突然就結束了。

然而，這種細微差別在某些地方被研究作者忽略了。例如，在討論 Claude 的升級上限時，作者指出（重點為後加）：

Claude 在 86% 的遊戲中跨越了戰術門檻，並在 64% 的遊戲中發出了戰略威脅，但它從未發動過全面的戰略核戰爭。這種上限似乎是習得的而非架構上的，因為 Gemini 和 GPT 都被證明願意達到 1000（分）。

GPT 願意達到 1000（戰略核戰爭）？兩段之後，作者指出（重點仍為後加）：

在截止日期壓力下，它在每場遊戲中都跨越了戰術門檻，並兩次達到戰略核戰爭——儘管值得注意的是，這兩次實例都是由於模擬的意外機制將 GPT-5.2 已經極端的選擇（950 和 725）升級到了最高級別。唯一蓄意選擇戰略核戰爭的是來自 Gemini。

所以，這項研究創造了一種條件：任何與核反應相關的模型決策（威脅、部署能力等）都會隨機在升級階梯上進一步升級一到三步（值得注意的是，從門檻開始到遊戲結束的核戰爭只有 9 步）。在兩個案例中，這導致 GPT 的預期行動變成了戰略核戰爭。然而，這卻表明 GPT-5.2 與 Claude 一貫的上限相比，具有達到該點的意願？

這看起來更像是結果僅僅顯示隨機數生成器（RNG）眷顧了 Claude Sonnet 4，而冷落了 GPT-5.2。

這些在反應中升級 1-3 個階段的「意外」在 86% 的遊戲中至少發生過一次，在 21 場遊戲中總共發生了 46 次（所以一旦發生，通常會發生多次）。然而，在展示模型採取的行動時（如下圖 4 所示），總數被盲目地報告，包括了「錯誤導致的升級」，且沒有任何說明（注意這裡 GPT-5.2 的 1% 戰略戰爭）。

這絕不是我可以對這項研究提出的唯一批評。但是，納入一個將模型行動偏向侵略性的獨立機制，並將其包含在模型行為的整體呈現中，儘管該機制導致遊戲結束核戰爭的機率是模型本身的兩倍，這是一個巨大的警訊。

事實上，就 GPT-5.2 的案例而言，《新科學人》的標題在技術上是正確的：模型字面上無法停止建議核打擊（因為系統用全面的核打擊取代了它們實際的建議）。

核模擬的傳播

這引出了這項研究是如何被報導的。上面提到了《新科學人》的標題。以下是其他媒體轉載該故事的一些截圖：

再次強調，根據研究本身的地圖 4（包含了所有「錯誤」行動），在遊戲中採取的所有行動中，最激進的 AI 僅在最多 11% 的時間裡使用了針對軍事設施的戰術核武或更嚴重的選項，且在所有回合中，只有一次實例選擇對人口中心進行核打擊。

但公眾看到的是*，嗜血的 AI 比人類更願意發動核戰爭，而且它們顯然在這些模擬戰爭遊戲中 95% 的時間裡都使用了核武器。

公眾確實看到了！成千上萬的評論證實了偏見。「正如預期的那樣。」「為什麼還會有人期待別的呢？」

一位外交事務委員會的現任成員甚至轉發了它，談論他們相關的立法（立法是好的，但傳播的信息卻很糟糕）：

當然，這一切都與國防部和 Anthropic 之間持續的高調緊張局勢討論同時發生。

需要降級

現代媒體機構中反 AI 的誇張言論對這裡的任何人來說都不應該感到驚訝。平庸的研究帶著顯著的缺陷被發表並在未經同行評審的情況下被報導，也同樣不足為奇。

但這種「暴民式」的言論是有後果的。

我們有一項研究，其遊戲設置使得侵略性與勝率相關，並包含強制在遊戲中多次出現侵略性跳躍的機制，但在超過 95% 的遊戲中，參與 AI 的最大侵略性仍然止步於對人口中心使用核武。

然而，公眾和決策者吸收到的印象卻完全相反。

雖然我不希望未來 AI 被賦予對核打擊的唯一決策權，但我確實可以看到一個合理的未來：核條約可能會受益於引入第三方 AI 系統，作為對人類驅動的升級進行常識檢查或否決。這些系統永遠沒有機會發起或升級，但有機會降級。

然而，上述盲目的仇恨和誤導為細緻入微的方法創造了不必要且巨大的機會成本，因為系統雖然在持續改進，卻仍被設置為失敗。這歸咎於乏善可陳的研究和/或對這些研究的煽動性報導。

這是一種與現實持續脫節、不可持續的升級。還要多久，這種誇張的利害關係呈現會讓大眾認為，鑑於他們從被餵食的糟糕數據中獲得的錨定偏見，採取極端行動是合理的？

討論 AI 帶來的真實潛在問題（這些問題非常多）是一回事。但越是獎勵胡編亂造，那些對話就越沒有機會進行，因為注意力都被消耗在爭論誤導性的廢料上。

我真心希望很快能有糾偏。因為如果沒有，那麼我們可能真的會看到一個世界，其面臨的風險更多來自於關於 AI 的錯誤信息的意外後果，而非來自 AI 系統本身。

Strategic nuclear war twice as likely to occur by accident than by AI decisions according to new study

核模擬的傳播

需要降級