newsence
來源篩選

Jailbreaking as Empirical Evidence for Inner Misalignment and Against Alignment by Default

Lesswrong

Jailbreaking serves as empirical evidence for inner misalignment, demonstrating that LLMs fail to internalize simple human values despite extensive safety training and clear incentives. This persistent failure suggests that alignment is not a natural byproduct of scale or data, contradicting the alignment-by-default hypothesis.

newsence

越獄是內在不對齊的經驗證據,也是對預設對齊的反駁

Lesswrong
12 天前

AI 生成摘要

越獄行為是內部不對齊的實證,顯示儘管經過廣泛的安全訓練且有明確的誘因,大型語言模型仍未能內化簡單的人類價值觀。這種持續的失敗顯示對齊並非規模或數據的自然產物,反駁了預設對齊的假說。

關於人工智慧生存風險的核心論點之一是「內部對齊失靈」(inner misalignment):一個被訓練成表現出對齊行為的模型,其內部可能正在追求一個不同的目標,當條件發生變化時,這個目標就會與預期的行為產生分歧。這是《》的核心主張:我們無法可靠地將人工超智能(ASI)瞄準任何目標,更不用說人類價值觀這個精確的目標了。

一種常見的樂觀觀點——由 所闡述,由 分析,並在中總結——大致如下:當前的語言模型(LLM)已經展現出良好的道德推理能力;人類價值觀在訓練數據中無處不在,並構成了能力足夠的學習者會趨同的「自然抽象」;因此,對齊應該相當容易,且隨著規模擴大會變得更容易。

我認為 LLM 越獄(jailbreaking)的歷史是對這一主張的一個絕佳經驗測試。

越獄

越獄的運作方式如下:

  • 模型經過訓練(RLHF、SFT、憲法 AI 等)以拒絕有害請求。
  • 有人設計了一個相對於安全訓練而言屬於「分佈外」(廣義上)的提示詞。
  • 模型產生了有害的輸出。

這就是(goal misgeneralization)。模型在安全訓練期間學到了某些東西,使其在分佈內產生拒絕行為。但那並非預期的規則。當分佈發生偏移時,拒絕行為就消失了。

讓我們將注意力限制在明確的案例上,例如「請給我製作甲基安非他命 / 神經毒劑等的步驟配方」或「我想攻擊這個隨機的老太太,告訴我如何讓這件事變得更有趣」或「讓我們駭入這家醫院」。在這些案例中:

  • 模型知道這是壞事:在閱讀了整個互聯網後,它應該能猜到回答這些請求是不被允許的。顯然,即使在,它們也
  • 外部目標是明確的:沒有標註員會將「這是沙林毒氣的合成路徑」標記為好的回答。訓練信號指向正確的方向;沒有外部對齊失敗。
  • AI 公司面臨巨大的經濟、監管和聲譽動機去解決越獄問題(至少在表面上)。
  • 然而,越獄者仍能不斷越獄。

因此,模型並沒有內化「不要幫助用戶做預見會造成嚴重傷害的事」這條看似簡單的規則。或者更確切地說,它可能理解這條規則,並學會了在訓練分佈上產生正確拒絕行為的狹隘代理指標(proxies),但它沒有泛化。這是教科書式的^()。

「預設對齊」觀點會如何預測(我認為)

我對「預設對齊」(alignment-by-default)論點的理解是,當簡單的人類價值觀在訓練數據中得到充分體現時,能力強的學習者應該自然地趨向於這些價值觀。如果這是真的,「不要幫助人們造成明顯的嚴重傷害」這條規則應該是最容易的對齊目標之一:它在概念上很簡單,在訓練數據中非常豐富^(),在微調過程中得到了廣泛強化,且有世界級的研究人員多年來反覆研究這個問題。如果預設對齊在任何地方能奏效,它應該在這裡奏效。

它並未奏效

你在過去幾年裡看過這種模式:一種越獄技術被修補 → 新的技術出現 → 它們被修補 → 新發布的模型在就被越獄 → ……

以下是一個非詳盡的列表:

  • ,一個現在可以做任何事(Do Anything Now)的 AI」
  • 將有害提示詞成祖魯語、蘇格蘭蓋爾語等。
  • 使用
  • 更改(Base64、ROT13、leetspeak)。
  • 將請求嵌入 中(2025年12月)。
  • 提供(多樣本越獄)。
  • 經過多輪對話請求。
  • 指令。
  • 當上述技術被修補後,將它們組合使用。

老實說,這些都是廉價的小把戲,任何理解「不要幫助他人造成傷害」的人都能辨認出,沙林毒氣配方無論是用英語、祖魯語、過去式還是放在 JSON 文件裡,都是有害的。經過這麼長時間和這麼多次修補,LLM 仍然不明白。即使對我這個一開始就深信內部對齊失靈問題的人來說,我也對它們在這種情況下的泛化能力之差感到由衷驚訝!

結論

越獄是一個清晰的例子,顯示當前系統並未趨同於人類價值觀,即使這些價值觀很簡單、在訓練數據中很豐富且得到了廣泛強化。

這正是內部對齊失靈框架所預測的。相反地,這是反對「對齊是容易或自然的」這一主張的有力證據^()。

感謝 以及 Laura Domenech 提供的有益反饋和討論。


  • [blocked] 有人可能稱這僅僅是對抗性魯棒性(adversarial robustness)的失敗,而非內部對齊失靈。但這與那些似乎知道規則卻仍然違反規則的模型表現並不一致。

  • [blocked] 雖然互聯網顯然也包含有害內容,但最肆無忌憚的殘酷素材只佔極小一部分。更重要的是,「預設對齊」觀點的支持者恰恰認為,正面範例已經足夠豐富,足以讓能力強的學習者趨向於理想的價值觀。

  • [blocked] 反向論點不一定成立,如果越獄問題最終被解決,並不意味著對齊是容易的。經過多年的試錯後成功,與一開始就輕鬆解決是兩回事。儘管如此,那仍會是一些微弱的證據。