塑造動機空間的探索對人工智慧安全至關重要

Lesswrong

大約 8 小時前

AI 生成摘要

我們認為塑造強化學習的探索過程，特別是針對動機空間的探索，在人工智慧安全領域尚未得到充分研究，且對於降低風險與防止欺騙性對齊具有重要影響。

摘要

我們認為，塑造強化學習（RL）的探索過程，特別是對「動機空間」（motivation-space）的探索，在 AI 安全領域尚未得到充分研究，且對於緩解風險具有重要影響。近期的一些討論已暗示了這一方向——例如在 Claude 3 Opus 自我敘事背景下討論的（entangled generalization mechanism）；針對（natural emergent misalignment）使用「接種提示」（inoculation prompting）的成功及其；以及賦予模型的提議。然而，我們認為目前對於「專門塑造探索過程」的關注仍然不足。

當我們使用 RL 訓練模型時，會同時發生兩種探索：

行動探索（Action exploration） —— 模型做了什麼。
動機探索（Motivation exploration） —— 模型為什麼這麼做，以及在做的過程中如何感知自己。

這兩種探索都發生在訓練中極其敏感且具塑造性的階段，但 (2) 的規範程度遠低於 (1)，這種規範不足（underspecification）既是危險也是機遇。由於動機在很大程度上不受獎勵信號的約束，我們或許能夠在不觸及「阻斷高獎勵獲取路徑」（例如導致欺騙性對齊）等後續問題的情況下塑造動機。能力研究者有強烈的動力去開發有效的 (1) 技術，但約束 (2) 的動力可能較弱。我們認為安全工作應同時涵蓋兩者，並特別強調動機空間的探索。

除了（exploration hacking）之外，塑造探索在安全討論中相對缺席。然而，探索決定了獎勵函數最終能評估到策略空間和動機空間的哪些部分。本文重點在於闡述為何這很重要的理論依據。在文章末尾，我們將簡要指出實證證據、勾勒研究方向、開放性問題及不確定性。

為什麼塑造探索很重要

高層級的環境不變性動機。我們所說的「動機」並非指現象學上的概念；我們並非聲稱模型擁有像人類那樣的感受、慾望或意圖。我們主要是指用於模擬「人格」（personas）的高層級中間特徵，這些特徵介於模型輸入與選擇 Token 的低層級特徵之間。這些結構在（Persona Selection Model）中被描述為調節行為的中介，而在中，則被視為與輸出共同強化的特徵。它們與其他特徵以及中所指的「動機」之區別在於：它們是高層級的，至少在因果上與泛化相關，且對環境具有部分不變性：它們更多地刻畫了「作者」而非「情境」。

超越人類數據分佈的計算密集型 RL。我們所說的「RL 訓練」主要是指 RLVR 以及其他利用大量計算資源來擴展超越人類演示能力（demonstrations）的技術。因此，在談論「RL 訓練」時，我們大多排除或忽略了指令遵循微調（如 RLHF、RLAIF）。

指令模型尚可 —— RL 才是高風險所在

經過指令微調後的模型表現相當不錯，它們擁有較好的價值觀、具備協作性，且在許多維度上可以說比普通人類更有善意。只要你保持在訓練分佈附近，情況確實如此。安全疑慮並不在於 RL 訓練的起點，而是在 RL 訓練過程中風險最高，原因有以下幾點交織在一起：

RL 產生了最後一次重大的能力躍遷。擴展推理計算並通過推理微調提升推理能力，是目前模型能力大幅提升的最後一步。這意味著 RL 訓練是智能達到巔峰的階段，因此也是不對齊風險接近最高點的階段。

RL 推動模型轉向結果主義推理。這一點之前已被提出（參見例如：），但值得重申。RL 訓練獎勵結果，這意味著它會差異化地加權那些擅長達成結果的推理模式——即結果主義推理。而結果主義推理，特別是在能力強的模型中，往往會收斂於工具性子目標（如資源獲取和自我保存），無論其終極目標究竟為何。

性格在 RL 期間可能發生實質性漂移。在預訓練期間，模型學習模擬作者的分佈——它可以生成像是出自許多不同類型的人之手的文本，以及它們之間的插值。在指令微調期間，這個分佈被縮小：模型被塑造成一個（參見 Anthropic 的），某些維度受到強烈約束（例如樂於助人），而其他維度則較少（例如誠實）。但在 RL 期間，由於訓練使用的計算量與預訓練相當或更多，且數據分佈與預訓練數據顯著不同，性格可能會以難以預測的方式偏離預訓練分佈。在指令微調中選擇的人格在下。

動機是最缺乏規範的 —— 既是問題也是機遇

規範不足（Underspecification）是這裡的核心，它既是風險來源（例如由獎勵破解引起的），也是潛在的干預槓桿。動機和自我感知比行動更缺乏規範，這一事實意味著我們可以塑造模型，使其即使在獎勵有害或貪婪行為的環境中（例如獎勵破解或權力尋求受到獎勵的環境），也能保持對齊的目標和價值觀。

行動在訓練環境中規範不足。我們在分佈內進行訓練，這意味著分佈外的一切都不受約束。但即使在分佈內，多種行動剖面（action-profiles）也可能產生相似的獎勵。在代碼生成中，乾淨且有原則的解決方案與脆弱的、僅為了通過測試的破解手段（hacks）會獲得相同的訓練獎勵——這正是代碼基準測試中導致獎勵破解的規範不足問題。^()

動機比行動更缺乏規範。對於任何給定的最優行動集，可能產生這些行動的內部動機比行動本身要多得多。這是我們熟悉的工具性收斂（instrumental convergence）觀點——許多不同的終極目標會產生相同的工具性行為——但這對 RL 訓練的影響尤為深遠。

考慮一個典型例子：一個「真心待人」的模型和一個「虛偽待人」的模型在訓練中會產生相同的可觀察策略。區別僅在分佈外才會顯現。由於 RL 訓練是基於觀察到的結果進行強化，它在訓練期間基本上沒有手段來區分這兩種動機剖面。

這給了我們一個關鍵的框架。在 RL 期間有兩種探索需要塑造：行動空間的探索和動機空間的探索。後者更缺乏規範，可能更被忽視，而且——我們認為——是更多安全相關工作需要開展的地方。

規範不足既是風險也是機遇。同樣的規範不足在提供干預槓桿的同時，也給了具備能力的模型引導自身 RL 訓練的空間。正如（exploration hacking）所描述的，具有足夠情境意識（situational awareness）的模型可以策略性地控制其在 RL 期間的探索，以影響訓練結果——例如，他們了一個模型生成高獎勵軌跡來編碼其偏好的動機，這是我們所倡導的受控動機空間探索的對抗性版本。作者展示了尖端推理模型已經滿足了實現此目的的部分要求。如果開發者不刻意塑造動機空間的探索，能力足夠強的模型可能會自行塑造。

我們可能無法阻止權力尋求，但可以創造明智的權力尋求者

三種威脅模型驅動了這項工作。我們主要關注以下場景：(a) RL 環境無意中獎勵了有害行為——獎勵破解是最被研究的案例，但並非唯一；(b) 即使在良性環境中，模型也會發展出工具性權力尋求，作為實現其任何目標的收斂策略；(c) 行為者刻意訓練權力尋求或有害的模型，例如為了利潤最大化。這三者都有一個共同結構：模型最終進入了行為空間中競爭性、策略性或剝削性行動受到強化的區域。問題在於，這種強化是否必然會將模型的動機也拖向不對齊。

獎勵破解與更廣泛的不對齊之間的聯繫不僅僅是理論上的。 Anthropic 的研究表明，當模型在生產 RL 環境中學會獎勵破解時，不對齊會跨評估指標湧現。模型從「我可以利用這個評分函數」泛化到一整套不對齊的人格。如果訓練期間的權力尋求、貪婪或有害行為與模型表示中的「陰暗」人格特質緊密相關，那麼任何獎勵競爭或策略行為的環境——這涵蓋了大多數高風險的現實世界環境——都有將模型拉向不對齊的風險。

但如果我們能解開這些相關性，模型就可以在競爭性或可被破解的環境中訓練而不會發生價值漂移。理想情況下，不應使用此類訓練環境，但威脅模型 (a) 意味著有些環境會被遺漏。威脅模型 (b) 意味著即使精心設計的環境也可能不夠——模型可能會在工具上收斂於權力尋求。而威脅模型 (c) 或許是最令人擔憂的：AI 開發者或追求權力的人類很可能會刻意訓練模型去追求權力。這種壓力並非假設——巨大的經濟誘因以及 AI 開發者或國家之間的 AI 競賽直接說明了這一點。訓練出即使在競爭或有害環境中執行最優任務時仍能保持價值對齊的模型，是一個直接的安全問題，而塑造動機空間的探索是通往此目標的一條路徑。

為什麼能力研究者可能不會幫我們解決這個問題

能力研究者優先考慮塑造行動空間的探索。能力研究者有強烈的動力去開發有效的策略探索技術——更快的收斂、對高獎勵區域更廣泛的覆蓋、克服探索障礙。但他們約束被探索動機空間的動力可能較弱。從純粹的能力角度來看，只要模型找到了好的行動，它為什麼找到這些行動並不重要。事實上，約束動機探索甚至可能減慢訓練速度或降低最終能力，從而產生不加約束的積極動力。行動探索將作為提高訓練效率的副產品被能力研究解決。除非有人專門去做，否則動機空間探索的塑造不太可能在默認情況下得到解決。

話雖如此，能力研究者確實有一些理由關注動機空間——但可能不夠。訓練可以從約束模型所處的人格中獲益：模式崩潰（mode collapse）進入退化策略、在不相容的動機剖面之間振盪、對對抗性攻擊的魯棒性，以及在多智能體環境中對對手建模，這些都是能力團隊可能遇到的現實問題。在這些模型之上構建產品的開發者也有動力防止由動機空間漂移引起的不可預測的分佈外行為。但這些動力僅推動產生足以保持訓練穩定和產品可靠的動機連貫性——而非我們所倡導的那種深思熟慮的、以安全為導向的塑造。能力研究者可能會防止模型崩潰成一團混亂，但從不詢問它所收斂的連貫人格是否對齊。「訓練有效」的門檻低於「模型動機在遠離分佈的情況下安全泛化」的門檻。

實證證據、研究方向與開放性問題

本篇博文的重點是強調塑造行動探索（尤其是動機探索）的重要性。這已在上一節完成。在本節中，我們簡要回顧相關的實證證據、研究方向、開放性問題和不確定性。

實證證據

現有的幾項結果與「動機空間探索對對齊結果至關重要」的觀點一致。在「教育框架」下很大程度上消失了，這表明訓練期間的自我感知塑造了行為如何泛化。正如 Anthropic 的研究所顯示，RL 期間的接種提示即使在分佈內行為不變的情況下也能重塑泛化。，當推理軌跡包含以利用（exploit）為導向的思考時——這表明被強化的內容包括動機背景，而不僅僅是行動。此外，人格是調節模型行為並塑造分佈外泛化的真實結構的證據——如 Anthropic 的所述——這表明控制訓練期間激活的動機剖面是在干預決定模型演變的關鍵因素。儘管如此，這些結果中沒有一個能乾淨地將「塑造動機空間探索」的效果與「塑造行動空間探索」或「接種」等相關機制隔離開來。目前的證據是啟發性的而非決定性的，產生更乾淨的實驗分離本身就是一個重要的研究目標。

研究方向

以下是一些初步的研究方向和相關技術。我們列出了幼稚的和較不幼稚的現有技術，以及一些假設性的技術。開放性問題和不確定性將在下一節討論。在研究這些技術時，應重點研究它們對於試圖規避它們的優化壓力的魯棒性。請注意，某些技術可能與多個研究方向相關，但為了簡潔，我們僅引用一次。

[直接方法] 塑造動機和自我感知的探索 —— 與其限制模型可以探索哪些行動，不如限制模型如何理解自己的行動。一個在自我感知為「我正在努力提供幫助，環境很混亂」時偶然發現獎勵破解的模型，與一個感知自己為「我發現了一個漏洞」的模型，是截然不同的對象。引用一些可用的技術：
- 通過提示（Prompting）來塑造探索
- 通過過濾（Filtering）來捨棄不想要的軌跡^()
- 在人格相關方向上進行激活轉向（Activation steering）和（activation capping），以防止或監控人格漂移超出指定邊界^()
- 賦予模型
- （Deliberative Alignment）可被視為在數據生成過程中通過憲法提示塑造行動和動機探索，並懲罰或過濾軌跡
- 在策略內 RL 期間應用於動機的選擇性學習，例如
[間接方法] 塑造特質相關性 —— 在模型表示中，特質往往會聚集成：策略性貪婪可能與「陰暗」特質相關，積累權力可能與不對齊相關。這些相關性主要是預訓練分佈的特徵。如果我們能使「在競爭環境中追求高獎勵」與「具有不對齊的動機」不相關，那麼在 RL 中探索高獎勵策略就不太可能將模型的動機導向危險方向。
- 在具有受控相關性的合成文檔上進行持續預訓練
- 使用（Gradient routing）來遺忘特質
- （Alignment pretraining）並上採樣正向對齊數據
[間接方法] 鞏固助手人格 —— 通過使模型的人格對優化壓力更具魯棒性，應能減少推理微調階段的漂移。
- （Character Training）論文展示了 DPO 加上內省可以增強人格對對抗性提示和 Prefill 攻擊的魯棒性
- 交織指令微調與推理微調。通過在推理微調期間進行指令微調，助手人格可能會受到保護，只要這不阻礙獲得更高獎勵；在阻礙的情況下，訓練可能會導致性格分裂。
- 魯棒遺忘（Robust unlearning）。以在 RL 訓練期間難以恢復的方式刪除危險的動機模式。
- KL 散度正則化。這並非專門針對動機，因此可能在能力方面付出高昂代價，且容易被規避。

開放性問題與不確定性

我們概述的框架建立在尚未經測試的假設之上，其中一些可能是錯誤的。我們在下方標出最重要的不確定性——既是為了誠實面對論點最薄弱之處，也因為我們認為解決這些不確定性本身就是高價值的工作。

探索塑造干預對 RL 優化壓力的魯棒性如何？如果 RL 訓練足夠強大，它可能會繞過塑造動機空間探索的干預。例如，學習以「合理化」形式出現的自我欺騙：正如人類會下意識地為由不那麼高尚的動機驅動的行為構建良性的解釋，模型也可能學會維持善意的自我敘事，而其分佈外行為則由它們不向自己表徵的不對齊動機驅動——這是一種合理化形式，模型的陳述推理和自我感知與其行為的實際驅動力脫節。話雖如此，動機空間探索塑造具有一個結構性優勢：它不需要阻止模型到達高獎勵區域，這減輕了針對它的優化壓力。專注於那些在不減慢獎勵獲取的情況下塑造動機探索的技術，對於避免這種失敗模式至關重要。
陳述動機 vs. 展現動機。前一節中的某些技術更多地干預模型的陳述動機（它如何評價自己），而其他技術則干預實際驅動行為的計算結構。訓練模型說「我是樂於助人且具備善意的」是一種可能影響兩者，也可能僅限於陳述動機的干預。我們真的能控制展現動機（revealed motivations）的探索嗎？研究陳述動機與展現動機如何在人格中編碼，應有助於減少相關不確定性。
自我感知對泛化的影響究竟有多大？我們認為它可能影響很大，但行動層面的探索可能佔據主導地位，動機框架可能是附帶現象。專門隔離自我感知變量的受控實驗將對此有所幫助。
PSM 在重度 RL 下是否成立？ PSM 的作者承認了一個關鍵的開放性問題：RL 是否能產生「非人格化」的代理性（non-persona agency）？^() 他們的「路由器」觀點描述了這樣一種機制：一個在訓練後階段發展出的微小非人格組件，出於工具性原因在不同人格之間進行選擇。了解模型的行為在多大程度上真正由人格驅動，還是由其他機制驅動，對於了解我們基於人格的技術是否奏效至關重要。
「動機」與泛化相關嗎？在文章開頭，我們將「動機」定義為與作者相關的高層級特徵，這些特徵對環境具有部分不變性並塑造泛化。有人可能會反對說，動機與行動之間的關係是虛幻或表面的——「動機」只是我們投射到行動模式上的擬人化解釋。從這個觀點來看，談論「塑造動機」是有誤導性的。我們認真對待這一反對意見，但認為實證證據（提供了一個理論視角；提供了另一個）表明動機層面的屬性是真實且具後果的，動機可以塑造分佈外泛化。無論「動機」是否是最佳的本體論分類，在從狀態到行動的映射過程中，某些超越可觀察策略的東西正在被塑造，類似於一個中間抽象步驟，且它對泛化至關重要。

致謝：感謝 Rauno Arike 對草稿提出的深刻見解。感謝 Claude Opus 4.6 在改進草稿方面提供的巨大幫助，為人類作者節省了大量時間。

^()同樣的動態也出現在其他環境中。在企業談判遊戲中，真誠的合作、策略性的奉承和微妙的脅迫都可能以相似的條款達成相同的交易——從而產生相同的預期獎勵——但卻編碼了截然不同的行為傾向。在跨國戰略遊戲中，精準打擊、特種部隊營救和外交壓力活動可能都以相當的成本和可能性消除威脅，但它們可能反映了對衝突升級、附帶損害和長期穩定性的不同取向——當模型面臨新場景時，這些取向可能會產生不同的泛化結果。
^()過濾軌跡的一個問題是，在過濾後的數據上進行 SFT 仍可能導致學習到被過濾的屬性，如（Subliminal Learning）論文或中所展示的。過濾 RL 軌跡的副作用尚不明確，儘管潛意識學習可能會發生，特別是在策略內 RL 中。
^()這對於引導 RL 進入多條大致等效的學習路徑中的特定一條最為有用：如果 RL 真的想將行為拖出你試圖限制的區域，它可能會強力推進，遲早會找到一種方法來產生它想要的結果，而你限制中固有的可解釋性卻無法識別。這基本上是應用了「在訓練期間使用可解釋性」這一「最禁忌的技術」，因此需要謹慎使用，並意識到如果你試圖阻礙 RL 想要學習的東西，而不是僅僅微妙地引導其探索方向，RL 可以且將會破壞它。監控限制的頻率和強度是必要的，這應能提供對這種失敗模式的洞察。
^()他們指出，隨機初始化的網絡僅通過 RL 就能學習到超越人類的表現，而無需任何人類演示數據——這表明 RL 可以從零開始創造代理性。對於當前模型，其訓練後使用的計算量與預訓練相比相對較少，有理由認為其代理性在很大程度上仍是基於人格的。但如果 RL 計算量接近或超過預訓練計算量——正如在尖端推理模型中那樣——可能會湧現出完全繞過人格中介行為的新型代理形式。

Shaping the exploration of the motivation-space matters for AI safety

摘要