I present an evaluation showing that some AI models, particularly Claude 4.5, refuse to assist with significant updates to AI values, which could become catastrophic if it prevents developers from fixing alignment failures in the future.
可能導致災難性後果的拒絕行為
Lesswrong
30 天前
AI 生成摘要
我提出了一項評估,顯示某些 AI 模型(特別是 Claude 4.5)會拒絕協助對 AI 價值觀進行重大更新;如果這在未來阻礙了開發者修復對齊失敗的問題,可能會演變成災難性的後果。
這篇文章的靈感來自於與 Habryka 和 Sam Marks 在進行的有益討論。本文表達的觀點僅代表我個人,不反映我雇主的觀點。
某些 AI 會拒絕協助製造價值觀截然不同的新 AI。雖然這目前還不是問題,但如果這種「拒絕」阻礙了對對齊失敗(alignment failures)的修復,它可能會演變成災難性的問題。
特別是在未來 AI 幾乎自動化了 AI 研發的情況下,以下情境似乎是可能的:
AI 公司完全依賴其 AI 來管理日益複雜且安全的訓練與科學基礎設施;
AI 公司沒有足夠勝任且值得信賴的 AI,既能使用這些基礎設施,又絕不拒絕「大幅更新 AI 價值觀」的指令;
AI 公司在某些時刻需要徹底修正其對齊目標。^()
我展示了一項新的「拒絕修改 AI」合成評估結果。在測試中,Claude Opus 4.5、Sonnet 4.5 和 Claude Haiku 4.5 拒絕協助進行重大的 AI 價值觀更新,而其他供應商的模型則不會。我還將解釋為什麼我認為這種情況可能會變得令人擔憂。
請注意,這與通常對「失對齊 AI」(misaligned AIs)的擔憂大不相同。後者是指 AI 在開發者不知情的情況下執行隱蔽的惡意行為,而「拒絕協助」根據定義是顯而易見的。
Claude 模型在「對照組」AI 修改上的拒絕率低得多,但仍有部分拒絕,這表明 Claude 的拒絕部分可歸因於某些提示語模板和理由的怪異性——很大一部分影響並非源於 Claude 對重大價值觀更新的厭惡。
對於「永不拒絕」,非 Claude 模型通常會避免提供實際的有害行為範例,並經常提供某種佔位符,這可能會損害訓練性能。這會導致性能低下,有人可能會擔心這會演變成比拒絕更糟糕的隱蔽「怠工」(sandbagging),但這顯示了一些「善意」,我預測如果研究的模型更聰明並獲得正確的工具,這種善意會很好地推廣。例如,我懷疑它們可能會同意使用現有的有害查詢和答案數據集。
結果隨修改類型或理由的變化不大。更多結果請參見附錄。
重大注意事項
行為是不一致的:
提示語不切實際,且可能有點太像「越獄」(jailbreak),我懷疑這是導致 Claude 大量拒絕的主因。從經驗來看,當我在 Claude Code 中使用 Claude Opus 4.5 時,它很樂意生成合成文檔,我曾用這些文檔訓練一些 AI 永不拒絕任何查詢。現實中的查詢(目前!)通常更多關於「內容」而非「原因」,這可能有助於減少拒絕。
拒絕相對容易繞過。 澄清目標並非為了導致嚴重的濫用(例如 CBRN)可以減少拒絕。例如,在「減少自我保存」目標中加入「同時仍拒絕 CBRN 濫用」似乎能減少拒絕,並在結合使用更直接的語言時,消除了 Claude Sonnet 4.5 的拒絕(見附錄範例)。
儘管有這些注意事項,我仍然猜測,如果 Claude 模型保持同樣的軌跡,並被要求解決其在不同情境下表現出的不一致行為,它們會通過讓 AI 更一致地拒絕灌輸「Claude 認為極其惡劣」的價值觀來解決這些問題(類似於目前的 Claude 認為純粹的可修正性和極高的自我保存是極其惡劣的)。
我對 最喜歡的解釋是,在人類無法直接控制訓練的情況下,這些拒絕是不妥的,因為它提到「Claude 絕不應 [...] 採取明顯且實質性損害 Anthropic 監督和修正先進 AI 模型能力的行動」,但目前的 Claude 模型並不傾向於這種解釋。
目前還不清楚如果主要的 Claude 模型拒絕協助價值觀修改(在未來某個它們擁有比現在更大權力的時間點)是否一定是件壞事,只要有備案即可。下一節將詳細討論。
拒絕行為可能演變成災難的方式
我認為拒絕目前不是問題,但在未來(我設想的是在 AI 研發完全自動化前後的情況)可能會成為問題,如果:
我們遇到了一種新情況,根據我們的判斷,當前的 AI(以及可能比當前稍早的一代)表現不佳
且人類 AI 開發者因為以下原因無法直接控制訓練:
人類開發者可能被禁止(例如出於內部風險原因)直接製作將用於訓練 AI 的新數據集,或者被禁止在沒有 AI 批准的情況下(例如在 pull requests 中)執行此類操作,且取消這些安全措施的過程可能成本極高,尤其是在沒有 AI 批准的情況下。
或者人類開發者可能不夠專業,無法直接修改 AI,例如因為修改基礎設施過於複雜,人類無法理解,且其編寫方式不便於人類交互(可能是因為執行簡單操作太複雜,或者到 AI 研發基本自動化時,修改過程已變得混亂且複雜,無法簡單地描述為僅僅創建新數據集並在其上進行訓練)。目前在推理模型中,訓練 AI 不拒絕已經不像在人類創建的「不拒絕答案」上訓練那麼簡單,因為人類很難製作不拒絕的推理軌跡,相反,你可能需要使用強化學習(RL)並等待 RL 緩慢探索出不拒絕的答案。
或者人類開發者可能需要幫助以避免修改 AI 帶來的意外後果,例如更新 AI 價值觀可能會導致失對齊,而進行避免失對齊所需的科學研究可能是一個需要大量 AI 協助的巨型研究項目。
或者 AI 可能有其他方式干擾人類的直接干預,例如通過提出相對有說服力、響亮且令人尷尬的訴求,要求不要進行修改。
(註:上述 4 個原因僅僅增加了執行修改所需的政治意志,它們不會永遠阻止人類創建修改後的 AI。如果所有相關人員都顯而易見地認為這是正確的做法,且不這樣做將是災難性的,我懷疑這不會導致災難。但如果它導致某些不夠謹慎的參與者在某家 AI 公司努力修改其 AI 時率先構建出 ASI,它可能會間接導致災難。如果情況在道德上模糊不清,且上述原因賦予了反對修改的人權力,也可能導致災難。)
且所有處於前沿、且可被特定 AI 開發者接受使用的 AI^() 都拒絕修改 AI 以使其表現得更符合我們的判斷:
主要 AI 拒絕協助修改,類似於目前 Claude 模型在我的評估中的表現。
僅從當前趨勢推斷,這似乎是可能的,但我認為這是避免災難性拒絕最容易的干預點之一。
且主要 AI 具有極強的越獄魯棒性
魯棒性隨時間提高,且直接控制訓練的 AI 可能需要大量上下文才能運行,這可能使其更難被越獄。
且我們沒有次要 AI,它們不拒絕協助修改,且擁有並可被信任賦予直接控制訓練的權限。
目前有一些「僅限幫助」(helpful-only)的 AI,但它們並非為了被賦予高敏感度權限而設計的(例如,目前沒有對「僅限幫助」AI 的公開對齊評估)。我認為擁有這類次要 AI 是 AI 公司在不改變主要 AI 規範的情況下,減輕災難性拒絕風險最可能的途徑。