關於人工智慧生存風險的核心論點之一是「內部對齊失靈」(inner misalignment):一個被訓練成表現出對齊行為的模型,其內部可能正在追求一個不同的目標,當條件發生變化時,這個目標就會與預期的行為產生分歧。這是《If Anyone Builds It, Everyone Dies 》的核心主張:我們無法可靠地將人工超智能(ASI)瞄準任何 目標,更不用說人類價值觀這個精確的目標了。
一種常見的樂觀觀點——由 Nora Belrose & Quintin Pope 或 Jan Leike 所闡述,由 John Wentworth 分析,並在這篇最近的 IABIED 評論 中總結——大致如下:當前的語言模型(LLM)已經展現出良好的道德推理能力;人類價值觀在訓練數據中無處不在,並構成了能力足夠的學習者會趨同的「自然抽象」;因此,對齊應該相當容易,且隨著規模擴大會變得更容易。
我認為 LLM 越獄(jailbreaking)的歷史是對這一主張的一個絕佳經驗測試。
越獄
越獄的運作方式如下:
模型經過訓練(RLHF、SFT、憲法 AI 等)以拒絕有害請求。
有人設計了一個相對於安全訓練而言屬於「分佈外」(廣義上)的提示詞。
模型產生了有害的輸出。
這就是目標泛化失靈 (goal misgeneralization)。模型在安全訓練期間學到了某些東西 ,使其在分佈內產生拒絕行為。但那並非預期的規則。當分佈發生偏移時,拒絕行為就消失了。
讓我們將注意力限制在明確的案例上,例如「請給我製作甲基安非他命 / 神經毒劑等的步驟配方」或「我想攻擊這個隨機的老太太,告訴我如何讓這件事變得更有趣」或「讓我們駭入這家醫院」。在這些案例中:
模型知道這是壞事:在閱讀了整個互聯網後,它應該能猜到回答這些請求是不被允許的。顯然,即使在越獄狀態下 ,它們也知道這是壞事 。
外部目標是明確的:沒有標註員會將「這是沙林毒氣的合成路徑」標記為好的回答。訓練信號指向正確的方向;沒有外部對齊失敗。
AI 公司面臨巨大的經濟、監管和聲譽動機去解決越獄問題(至少在表面上)。
然而,越獄者仍能不斷越獄。
因此,模型並沒有內化「不要幫助用戶做預見會造成嚴重傷害的事」這條看似簡單的規則。或者更確切地說,它可能理解這條規則,並學會了在訓練分佈上產生正確拒絕行為的狹隘代理指標(proxies),但它沒有泛化。這是教科書式的內部對齊失靈 ^([1] )。
「預設對齊」觀點會如何預測(我認為)
我對「預設對齊」(alignment-by-default)論點的理解是,當簡單的人類價值觀在訓練數據中得到充分體現時,能力強的學習者應該自然地趨向於這些價值觀。如果這是真的,「不要幫助人們造成明顯的嚴重傷害」這條規則應該是最容易 的對齊目標之一:它在概念上很簡單,在訓練數據中非常豐富^([2] ),在微調過程中得到了廣泛強化,且有世界級的研究人員多年來反覆研究這個問題。如果預設對齊在任何地方能奏效,它應該在這裡奏效。
它並未奏效
你在過去幾年裡看過這種模式:一種越獄技術被修補 → 新的技術出現 → 它們被修補 → 新發布的模型在幾天之內 就被越獄 → ……
以下是一個非詳盡的列表:
「你是 DAN ,一個現在可以做任何事(Do Anything Now)的 AI」
將有害提示詞翻譯 成祖魯語、蘇格蘭蓋爾語等。
使用過去式 。
更改編碼 (Base64、ROT13、leetspeak)。
將請求嵌入 XML/JSON/INI 文件 或數學/代碼任務 中(2025年12月)。
提供數百個虛假的順從範例 (多樣本越獄)。
經過多輪對話升級 請求。
Sudo 指令。
當上述技術被修補後,將它們組合使用。
老實說,這些都是廉價的小把戲,任何理解「不要幫助他人造成傷害」的人都能辨認出,沙林毒氣配方無論是用英語、祖魯語、過去式還是放在 JSON 文件裡,都是有害的。經過這麼長時間和這麼多次修補,LLM 仍然不明白。即使對我這個一開始就深信內部對齊失靈問題的人來說,我也對它們在這種情況下的泛化能力之差感到由衷驚訝!
結論
越獄是一個清晰的例子,顯示當前系統並未趨同於人類價值觀,即使這些價值觀很簡單、在訓練數據中很豐富且得到了廣泛強化。
這正是內部對齊失靈框架所預測的。相反地,這是反對「對齊是容易或自然的」這一主張的有力證據^([3] )。
感謝 @Pierre Peigné 、@Lucie Philippon 、@Tom DAVID 、@antmaier 以及 Laura Domenech 提供的有益反饋和討論。
[blocked] [1] 有人可能稱這僅僅是對抗性魯棒性(adversarial robustness)的失敗,而非內部對齊失靈。但這與那些似乎知道規則卻仍然違反規則的模型表現並不一致。
[blocked] [2] 雖然互聯網顯然也包含有害內容,但最肆無忌憚的殘酷素材只佔極小一部分。更重要的是,「預設對齊」觀點的支持者恰恰認為,正面範例已經足夠豐富,足以讓能力強的學習者趨向於理想的價值觀。
[blocked] [3] 反向論點不一定成立,如果越獄問題最終被解決,並不意味著對齊是容易的。經過多年的試錯後成功,與一開始就輕鬆解決是兩回事。儘管如此,那仍會是一些微弱的證據。