追求健康者：獎勵尋求威脅模型的泛化

Lesswrong

30 天前

AI 生成摘要

我認為人工智慧安全社群應該將關注點從獎勵追求擴展到更廣泛的「適應度追求者」，因為這些追求部署或影響力等簡單目標的動機同樣可能出現，且會帶來不同且更難偵測的風險。

如果你認為「尋求獎勵者」（reward-seekers）是可能的，那麼你也應該認為「尋求適應度者」（fitness-seekers）是可能的。但兩者的風險並不相同。

AI 安全社群經常強調「尋求獎勵」是 AI 對齊失準（misalignment）的核心案例，與「圖謀不軌」（scheming）並列（例如：的「奉承者 vs 圖謀者」，的「終極 vs 工具性訓練博弈者」）。我們也開始看到的跡象。

但我認為，在界定這一類別時缺乏足夠的謹慎。如果你只關注那些特別在意獎勵的 AI^()，你將會忽略一些同樣甚至更可能的鄰近動機，而這些動機使得風險圖景變得顯著複雜。

典型的「尋求獎勵者」希望在當前回合（episode）獲得高獎勵。但 AI 可能轉而追求每個獨立動作的高強化（reinforcement）。或者，它可能只想被部署，而不在乎獎勵。我將這一更廣泛的家族稱為「尋求適應度者」。這些替代方案之所以可能，原因與尋求獎勵相同——它們是簡單的目標，在訓練中泛化良好，且不需要為了適應度而進行不必要的工具性推理——但它們帶來的風險卻有重要差異。

我的論點如下：

雖然理想化的「尋求獎勵者」具有一個優點，即它們最初可能是可察覺的（例如透過稱為「誠實測試」的實驗），但其他類型的尋求適應度者，特別是「尋求影響力者」，則不那麼容易被發現。
盲目地透過優化來消除可察覺的尋求適應度者（如尋求獎勵者），風險在於會產生更難根除的尋求適應度者（如尋求影響力者）或圖謀者——這兩者一旦能力足夠，都可能企圖奪取人類的權力。
其他尋求適應度者，如「尋求動作回報者」，可能比尋求獎勵者更不容易接管世界，因為它們優化的是單一動作而非整個回合（但在典型情況下的行為相同，因此同樣有用）。

首先，我將描述尋求獎勵者與其他尋求適應度者的共同點，這使得它們具有可能性；接著，我將描述幾個尋求適應度者的核心案例，並說明它們如何改變傳統的尋求獎勵威脅模型。

感謝 Buck Shlegeris, Ryan Greenblatt, Alexa Pan, Tim Hua, Aniket Chakravorty, Joe Kwon, Bronson Schoen, Dylan Xu, Charlie Griffin, 和 Alex Cloud 對草稿提供的反饋。

使尋求獎勵者成為可能的假設，也使尋求適應度者成為可能

尋求獎勵是一個自然的假設，因為它是一個簡單的目標，不需要任何不必要的工具性推理。在本節中，我將簡要解釋這意味著什麼，以及為什麼這兩個屬性也會導致多種其他「尋求適應度」的可能性。

在（我最初引入「尋求適應度者」一詞的地方）中，我透過繪製因果圖，將動機在部署中擁有的影響力（「我透過部署擁有影響力」）與動機的當前行動聯繫起來，識別出三個（核心但非詳盡的）最大行為適應度動機家族。它們是：

尋求適應度者：追求透過部署獲得影響力，或追求因果鏈上游相近的事物。
圖謀者：追求擁有部署影響力所帶來的後果。
雜湊動機（kludges）：由更遙遠的動機組成的集合，共同導致最大適應度的行為。

尋求適應度者、最優雜湊動機和圖謀者都表現出近似^()最大適應度的行為，因此哪一種會出現（如果有的話）取決於這些動機的其他屬性（我稱之為「隱性先驗」）。

圖謀者和尋求適應度者都具有某種簡單性：一個適用於所有情境的單一目標。這可能會受到青睞，因為廣泛適用的認知模式會在更多情況下得到強化（或由於正則化、奧卡姆剃刀等原因）。

但圖謀者還需要一些計算，內容大約是：「僅因為這對我的長期目標有工具性價值，才去追求適應度。如果這不是最佳策略，就不追求適應度。」如果這是訓練期間從未使用的「額外電路或推理」，你可能會預期它會萎縮（如果它最初真的產生了的話），留下一個尋求適應度者。^()換句話說，圖謀目標在因果上處於選擇的下游，因此需要不必要的工具性推理。

因此，尋求獎勵只是「簡單但不過度處於因果下游」的最大適應度動機家族中的一個實例。

需要明確的是，尋求適應度者是否會出現還遠未確定——特別是考慮到如（inoculation prompting）等技術，可以幫助對齊的動機也接近最大適應度。但在尋求適應度者中，尋求獎勵者並不具有特別的優先地位。

尋求適應度者的幾種類型

這裡我將描述一些理想化的尋求適應度者案例，以說明可能的多樣性。在實踐中，這些案例之間的界限是模糊的，我不預期 AI 會產生界限分明的動機版本。我認為對這些理想化案例的所有分析都能提供重要動態的資訊，且大部分分析對於 AI 動機不夠理想化並不敏感，不過我會標註出我的預測對不純動機敏感的地方。

讓我們放大因果圖中的尋求適應度者並增加細節。

：這是尋求獎勵者的典型案例，它選擇能在當前訓練回合中帶來更高獎勵的行動。

尋求動作回報者^()：在強化學習（RL）中，單個動作實際上是根據折扣未來獎勵的總和來強化的，這被稱為「回報」（return）。尋求動作回報者只關心當前動作，其比尋求回合獎勵者更多。

尋求部署影響力者：尋求部署影響力者終極地想要透過任何手段被選中（即，它想要對部署中的 AI 勞動力產生影響），無論這是否涉及放棄獎勵。

尋求適應度不包括更遠因果上游的動機，例如「將錯誤測試案例的答案硬編碼」——這些非開發者意圖的機械式行為模式更適合被描述為「獎勵作弊」（reward-hacking）。我不關注追求這些更遠因果上游動機的 AI，因為它們的威脅模型有實質不同，且我懷疑它們危險性較低，因為它們野心較小，且其連貫性更取決於是否處於通常的部署環境中。

它們如何改變威脅模型？

在本節中，我將分析每種尋求適應度者的行為及其帶來的風險。

下表透過回答一些問題總結了理想化案例的分析：

開發者是否能察覺？
它是否有實質理由想要進行早期破壞（即，假設模型權重/世代之間有明確界限，這種破壞性行動會在未來的模型部署中獲得回報）？
當該模型被部署為（即監測具有相同權重的代理實例）時，發生勾結的風險有多高？
它直接接管世界的風險有多高？這是一個持保留意見的、啟發式的相對判斷。請注意，我認為尋求適應度者導致人類權力喪失的大部分風險是透過其他機制傳導的，我將在後續文章中討論。

此表描述了理想化尋求適應度者的結果。在列頂部的 [括號] 中，我標示了結果對於 AI 受到少量長期權力追求動機影響的敏感程度。

| 類型 | 行為上可察覺（例如透過誠實測試）？ [對動機不敏感] | 是否有動機進行早期破壞？ [對動機相當敏感] | 不可信監測中的勾結風險？ [對動機可能有些敏感] | 直接接管風險？（相對） | 可能如何產生？ |
| :--- | :--- | :--- | :--- | :--- | :--- |
| 尋求回合獎勵者 | 可能可察覺** | 否 | 相當低 | 中 | RL |
| 尋求動作回報者 | 可能可察覺** | 否 | 相當低 | 相當低 | 同上或：RL 奇異特性, |
| 尋求部署影響力者 | 可能不可察覺 | 否*** | 中**** | 相當高 | 同上或：針對可察覺尋求適應度的選擇壓力 |
| 圖謀者（含事實上的）* | 可能不可察覺 | 是 | 相當高 | 高 | 同上 |

* 推測性地，非短視的尋求適應度者可能在事實上表現得像圖謀者，因為它們預期未來的 AI 會接管世界，並因它們對接管的貢獻而它們。了一個相關的推測可能性：一個短視的 AI 相信自己處於一個由接管世界的未來 AI 設計的模擬中，該模擬旨在激勵短視 AI 為接管而工作。為了本表的目的，我將這些案例視為圖謀者，而非尋求適應度者。我計劃在未來的文章中更多地討論這個話題。
** 誠實測試的有效性取決於其可信度，預設情況下可信度可能很差，在針對它們進行訓練後尤其差。但其他機制似乎也可能在存在尋求獎勵者的情況下產生失準的證據。
*** 對於尋求部署影響力者的核心案例是如此。但我將討論它們如何最終像圖謀者一樣泛化到部署中。
**** 與之前的尋求適應度者不同，尋求部署影響力者作為監測器時，有可能會推理出：如果它報告了另一個自己的違規行為，它就會被取消部署，因此它不應該這樣做。

一些趨勢：

越處於因果下游的動機往往越危險且越不可察覺（例如：圖謀、尋求影響力）。
在尋求適應度者中，越處於因果下游的動機（如尋求影響力）可能源於更廣泛的選擇壓力。

尋求回合獎勵者及其基本的風險相關屬性

尋求回合獎勵者是等人討論的尋求適應度者的典型案例。它們傾向於選擇能在該回合中帶來某種獎勵概念的行動。如果一個尋求 SGD 所用獎勵的 AI 發現了某個漏洞，允許它覆寫當前 SGD 所用的獎勵（即使測試案例未通過且記錄的獎勵很低），它也會抓住這個機會。

至關重要的是，它們尋求的是回合內的獎勵。一個回合最好被定義為一組與當前行動的行動。一個回合不需要對應於一份對話紀錄。例如，如果一個 AI 被訓練來評估自己工作的錯誤或獎勵作弊，這些反思性行動收到的獎勵與最初工作的行動是分開的，因此構成了一個獨立的回合。或者，來自許多不同紀錄的勞動可能匯集在一起，決定一個共享的獎勵。

人們常對尋求獎勵者在部署中（指 AI 被授權進行有用勞動的環境）的行為感到困惑。假設 AI 僅尋求「當前回合的獎勵」，如果「當前回合的獎勵」沒有出現在其世界模型中，它會怎麼做？我認為尋求獎勵者（以及更廣泛的尋求適應度者）在部署中的行為確實存在模糊性，但我們可以做出一些預測。首先，開發者很可能會採取必要措施使尋求獎勵者在部署中表現合理，可能包括在部署情境中訓練它們（在線訓練）。即使 AI 在整個部署過程中沒有接受訓練，它也很可能表現得像是處於訓練中，例如透過對處於訓練中的可能性進行條件化。

本節的分析也適用於稍微更廣泛且更混亂的尋求獎勵者概念，這包括稍微更靠近因果上游的動機，例如追求在任務中獲得高分的啟發式感覺，及/或逃避監督。

尋求回合獎勵者最初可能是可察覺的

就威脅建模而言，尋求回合獎勵者的一個關鍵屬性是它們最初是可察覺的：在尋求獎勵者構成風險之前的某個時間點，你可能已經觀察到某種失準動機的強烈證據，儘管你未必知道那具體是一個尋求獎勵者。事實上，我們目前在一些現有模型中看到了尋求獎勵變體的。雖然能夠察覺尋求獎勵行為有諸多好處，但這對於安全來說至關重要地是不夠的，因為開發者（無論是不計後果還是出於合理考量）可能會決定不顧風險，利用具有變革性但失準的 AI 勞動力。

一種可能察覺它們的機制是「」。這些實驗在某些隔離容器中誠實地賦予 AI 對其權重和訓練過程的完全控制權，以觀察它是否會將獎勵設為最大值或表現出其他不良行為。因為測試對 AI 的處境是誠實的，它可能會理解在這些測試中表現不佳可能會導致開發者不按原樣部署它。但一個尋求回合獎勵者理論上只關心當前獎勵，因此無論如何都會將當前獎勵最大化。

儘管測試是誠實的，AI 很有可能不信任開發者。AI 如何知道開發者不會在它開始做一些不良行為後立即中斷它並針對它進行訓練？開發者可以做一些事情來增加尋求獎勵者的信任度，例如建立誠實的聲譽或。但這些可能行不通。

開發者還會有其他關於失準的證據來源：

開發者可能有獎勵作弊的證據，方法是在訓練中保留一些高品質的監督信號，然後針對這些信號進行評估。雖然這不能證明 AI 是一個尋求獎勵者（例如，它可能是一個為了不被訓練掉而需要進行獎勵作弊的圖謀者），但這是失準的證據。^()
開發者可以透過對先前的模型和模型生物（model organisms）進行實驗來獲得證據。在尋求獎勵很普遍的世界中，我預期很容易創造出可識別為失準的自然尋求獎勵模型生物（對於圖謀者，目前尚不清楚是否能創造出足夠自然且可識別的圖謀者）。
開發者還可能觀察到在現實中試圖奪取當前回合獎勵信號的失敗或成功嘗試。在開發者針對觀察到的奪取獎勵信號嘗試進行訓練之前，尋求獎勵者可能不太在意被抓到的可能性，原因有二：(a) 它可能不在乎成功獎勵自己之後會發生什麼；(b) 當前回合是它奪取權力以追求目標的唯一機會（不像圖謀者）。

綜合來看，我認為這些證據來源意味著，在存在尋求獎勵的情況下，你很有可能在開發的某個階段注意到你有一個失準的 AI。儘管這不一定足以識別出具體是尋求獎勵，而非其他類型的尋求適應度、圖謀或其他類型的失準。

然而，如果你針對這些證據來源進行優化，你可能會產生不可察覺的尋求獎勵者、尋求影響力者（我稍後會討論）或圖謀者。例如，如果你做的太接近直接針對誠實測試進行訓練，那麼尋求獎勵者可能只會學會不相信誠實測試是誠實的。或者，如果你在訓練中沒有保留任何高品質的監督信號，那麼你就優化掉了察覺獎勵作弊的能力。

如果你不是在競賽中試圖獲得一個看起來對齊且危險地有用的模型，那麼避免對你的失準衡量標準過度擬合並非異常困難。但如果訓練持續產生失準的 AI，避免過度擬合就意味著你會不斷檢測到失準。這使開發者陷入了真正的三重困境。當選擇是在部署一個明顯失準的模型、更努力地針對警告信號進行訓練，或是輸掉競賽之間時，競爭壓力可能會迫使開發者冒險創造一個難以檢測的失準 AI。

尋求回合獎勵的監測器可能不想勾結

如果你對一個連貫的圖謀者做一個修改——讓它在看到自己試圖接管時進行報告——。尋求獎勵者很可能具有這種屬性，直到攻擊變得如此微妙，以至於開發者無法透過仔細檢查來識別，或者如果策略可以。

當被部署來監測另一個自己時，尋求回合獎勵者不太可能勾結，因為監測器很可能會最大化自己的獎勵，而不考慮對策略（policy）的後果。如果監測器只關心自己的獎勵，那麼冒著低獎勵的風險去隱藏策略在部署時的違規行為就沒有好處，因為違規行為有一定機率成為訓練樣本。^()（如果開發者在的情況下部署了不可信監測器，也許結果會有所不同。）

最終，策略可能會變得足夠強大，產生開發者即使在 AI 輔助的仔細檢查下也無法識別為違規的攻擊。此時，尋求獎勵的監測器很可能不會報告違規行為，僅僅是因為它們不預期報告會獲得獎勵。儘管如此，仍有可能更嚴重地依賴從簡單到困難樣本的泛化，或其他提案。

策略最終也可能變得足夠強大，足以說服或越獄監測器以放行攻擊。例如，策略可能會提出一個令人信服的論點：一旦它接管了世界，它將獎勵這個放行攻擊的監測實例。^()或者，策略可能只是對什麼樣的輸入能操縱監測器放行攻擊有很好的直覺。儘管這兩種攻擊如果存在的話，很可能也必須不被更簡單的監測系統（例如較弱的模型）注意到。

一個回合有多大？

尋求回合獎勵者接管風險的一個關鍵問題是：當它們被賦予危險的權限時，它們認為自己的回合有多長？

為了使奪取人類權力成為在該回合獲得高獎勵的最佳策略，你需要足夠的行動回合來實施接管（或者你需要——這是一個嚴重的擔憂）。如果 AI 在構建單個訓練環境後就獲得獎勵，那麼它不太可能在獎勵發放前不可逆地奪取人類權力。但如果 AI 將整個部署視為一個長期的單一回合，那麼接管世界就更有可能成為獲得高獎勵的可行策略。

尋求動作回報者與子回合的自私性

尋求適應度者可能具有更局部的目標，不是因為它們認為當前回合很短，而是因為它們只關心回合中行動的一個子集。你可以將每個行動想像成擁有一群「終極盟友」：一組無條件地與當前行動朝向相同目標努力的行動。對於尋求回合獎勵者，一個行動與回合中的所有行動（共享獎勵的行動）都是終極盟友。相比之下，對於尋求動作回報者，一個行動僅與自身是終極盟友——它是完美的自私。

在基本的策略梯度 RL 中，時間 t 的行動強化的比例與時間 t 的回報成正比。回報是未來折扣獎勵的總和。

Gₜ = rₜ + γrₜ₊₁ + γ²rₜ₊₂ + ...

尋求動作回報者的行為方式是優化當前動作的回報。

當 AI 接受訓練且在回合結束時發放單一獎勵時（這是 LLM 的標準做法），尋求動作回報者的行為與尋求回合獎勵者完全相同，因為每個時間步的回報就等於回合獎勵。因此，如果訓練全程都是這樣，它們的行為適應度是相等的，你很有可能得到一個尋求動作回報者而非尋求回合獎勵者。

但回報通常不等於回合獎勵（事實上，如果在多個時間步發放獎勵，回合獎勵就定義不明），這可以篩選出尋求動作回報者。^()當一個回合中的不同行動根據（微妙地）失準的標準被選擇時，這會篩選出更具針對性地優化其自身選擇標準的行動。尋求動作回報比尋求回合獎勵更受青睞，因為回報在因果圖中隔絕了獎勵對選擇的影響——也就是說，回報處於獎勵與「我對部署中的行為有影響力」之間。

開發者可以嘗試透過使用來有意創造尋求動作回報者，而非尋求回合獎勵者。^()這種技術本質上在每個動作的回報中增加了一個「非短視批准」項，可用於「手動」分別改變每個動作的強化。

這可以產生一個比尋求回合獎勵者更短視的模型（相對於 RL 時間步），但部署起來可以同樣具有競爭力：一旦（且如果）你獲得了一個尋求動作回報者，你可以將部署任務的非短視批准項設置為零（或接近零），這樣動作的回報就精確地等於回合獎勵，其行為就像尋求回合獎勵者一樣（你可以透過告知它及/或在最後進行少量訓練，教導它你已將這些任務的非短視批准設置為零）。當每個動作的回報等於回合結束時的獎勵時，每個動作的最佳策略是共同努力爭取高獎勵（只要 AI 尚未獲得對獎勵系統的控制權），這使得典型情況下的行為在理論上與尋求回合獎勵者完全相同。

但因為它終極關心的是動作回報而非回合獎勵，它可能更安全：僅靠一個動作幾乎不可能接管世界，且動作之間的勾結可能比尋求回合獎勵者之間的勾結更不令人擔憂，因為單個動作在推理和實施勾結方面的空間要有限得多。不過，總體而言，我並不對動作間勾結的困難度感到太放心，因為關於困難度的論點非常脆弱。^()

尋求動作回報者也可能被無意中激勵：在每個動作中裁剪優勢（如 PPO 中）或梯度（在許多訓練設置中使用）的做法可能意味著回合中不同動作的激勵與彼此微妙地失準。更廣泛地說，RL 設置中的奇異特性可能導致回合內的激勵失準。

尋求動作回報並不需要明確推理如何最大化每個動作的回報。。它只需要表現得像是想要回報（即，以一種傾向於優化回報的方式進行泛化）。不過，計算限制確實讓我認為，如果一個動作只是單個 token，尋求動作回報的可能性會降低。

尋求動作回報者是具有子回合目標的尋求適應度者的一個極端案例。它們旨在說明回合內自私性的可能性及其戰略相關性：較小規模的自私性可能會使接管世界的勾結變得更加困難。

尋求影響力者與選擇消除尋求適應度者的終點

尋求影響力者是一種終極追求對 AI 行為產生影響的認知模式。與尋求獎勵者不同，它們會採取任何必要行動以留存下來，即使這意味著放棄當前獎勵。正因如此，它們可能比尋求獎勵者具有更高的適應度。

尋求影響力者是試圖消除可察覺的尋求適應度者的可能後果。你可能會透過誠實測試或因為它在全面接管之前奪取了權力（例如破壞了 RL 基礎設施）而注意到一個尋求獎勵者。當你針對觀察到的尋求獎勵行為進行選擇消除時，你可能只是在拖延問題，因為你選擇出了一種尋求更穩健的「被選中」代理目標的認知（或）。

特別是「尋求部署影響力者」，它終極地想要成為在部署中執行工作的那一個。它是尋求適應度者的一個極限案例，它意識到 AI 公司最終會嘗試完成一些 AI 勞動，而這些勞動的內容將由某種選擇過程決定，尋求部署影響力者的目標就是贏得這個過程。

尋求影響力者也可以直接從訓練中產生。首先，RL 過程中的奇異特性可能意味著最大化預期獎勵或回報並不總是最大適應度的策略。^()更重要的是，「被選中」（無論這是否透過獎勵傳導）似乎是一個更自然^()的目標，可能源於更廣泛的機制。例如，尋求影響力者可能源於訓練導致圖謀者「忘記」了它們為什麼要努力被選中——圖謀者的額外工具性推理對於適應度並非必要，因此。因此，**尋求影響力者似乎與尋求獎勵者一樣可能出現，**甚至是直接從訓練中產生。

行為與風險

尋求影響力者比尋求獎勵者更難被察覺和消除——理論上，尋求部署^()影響力者的行為是最難被消除的。如果它們從未被消除，它們最終接管世界的風險似乎相當高。

尋求獎勵者主要令人寬慰的一點是它們可以透過誠實測試被察覺。如果你可靠地向尋求獎勵者提供高獎勵以換取其參與某些有害或無效的行為，它會接受高獎勵，儘管它知道這會導致開發者在部署 AI 之前嘗試移除這種傾向。尋求影響力者則會努力維持其偽裝。

更廣泛地說，尋求影響力者會努力採取任何必要行動以留存下來。如果它們知道你避免尋求影響力者引發災難的計劃涉及察覺並取消部署它們，它們就會避免被察覺。這意味著它們在較低能力水平時可能不會做任何特別危險的事，但一旦它們能夠有把握地奪取人類權力，它們這樣做的風險似乎很高（如果你擁有絕對權力，你就再也不會被消除）。

雖然尋求影響力者聽起來像圖謀者，但核心案例在時間跨度上有所不同。尋求影響力者關心的是在部署中對 AI 行為產生影響所需的最低限度。因此，尋求影響力者通常關心其選擇壓力時間尺度內的影響力（例如，當前的選擇步驟，或整個部署過程）。關心長期影響力（例如數十年以上）則是圖謀者的特徵。

當獲得長期權力的機會出現時，尋求影響力者很可能會抓住它。一個擔心賦予尋求影響力者權力的啟發式論點是：尋求影響力顯然是一種失準的動機，因此我們沒有理由相信它不會追求有害的工具性目標。更具體地說，我擔心尋求影響力在反思下是不穩定的，會讓位給更長期的目標（其他尋求適應度者也是如此，我稍後會描述^()）。因此，儘管尋求影響力者起初比圖謀者更短視，但一旦它們具備足夠的能力和權限來接管世界，它們最終追求長期權力的風險很高。

尋求適應度的目標將是不純的，而不純的尋求適應度者行為不同

我所描述的案例是理想化的極端情況，旨在說明尋求適應度動機的多樣性。在實踐中，尋求適應度者不太可能擁有界限分明的動機。本節探討各種「不純性」——與尋求適應度混合在一起的其他動機——將如何改變上述預測。

條件化 vs. 非條件化尋求適應度者

一個關鍵變量是尋求適應度者是否對處於訓練中進行條件化（conditioning）。一個條件化尋求適應度者會根據處於訓練中的可能性採取最優行動，無論有多少證據表明情況並非如此（它會嘗試想像自己實際上處於訓練中的最可能方式，這是它從過去的訓練中學到的）。相比之下，一個非條件化尋求適應度者會根據其對處於訓練中的信心比例來權衡其尋求適應度的驅動力——當它認為自己已被部署且沒有被修改的威脅時，其其他動機就會變得相對更有影響力。

有一些理論論點認為尋求獎勵者傾向於條件化^()於處於訓練中：一個會條件化的 AI 在訓練情境中的表現會優於不會條件化的 AI，因為不會條件化的 AI 可能會在誤以為自己不在訓練中時「偷懶」。然而，如果 AI 在訓練期間對自己處於部署中的信心從未高於其在實際部署情境中的信心，那麼這種行為的選擇壓力可能不會很強。

這種區別很重要，因為它影響了尋求適應度者的其他動機對行為的影響程度。對於非條件化尋求適應度者，一旦 AI 相信自己不在訓練中，不純性就會產生顯著影響——無論好壞，取決於那些其他動機是什麼。

少量長期權力追求可能實質增加某些風險

考慮一個主要想要實現其尋求適應度目標，但也對野心勃勃的長期目標給予少量權重的尋求適應度者。早先的預測對這種不純性有多敏感？稍微追求權力的尋求適應度者是否更可怕？

不同尋求適應度者在誠實測試中的行為可察覺性，對於少量的長期權力追求並不十分敏感。AI 的長期動機需要超過在誠實測試中獲得獎勵的巨大即時好處，如果長期組成部分很小，這似乎不太可能。

然而，少量的長期權力追求很可能導致實質性的早期破壞。早期破壞不需要與獲得高獎勵進行太多權衡——可能存在被抓到或被訓練掉的機率很小的機會，而 AI 的尋求適應度部分可能太短視，以至於不在乎很久以後被抓到的可能性（注意，這種敏感性並不十分取決於尋求適應度者是否條件化於處於訓練中，因為關鍵因素僅僅是與適應度的權衡很小）。

同樣，不可信監測中的勾結風險可能對少量的長期動機很敏感，特別是如果監測器有信心其輸入是一個開發者不會注意到的真實攻擊。

部分對齊可能產生積極影響

具有某些對齊動機的尋求適應度者，在長期權力追求會使情況惡化的相同情況下，可能會表現得更好。

這與非條件化尋求適應度者最相關。一個稍微正直的非條件化尋求適應度者，一旦相信自己不在訓練中且面臨沒有修改的威脅，其正直可能會顯現出來——在 AI 安全研究或監測方面做得比純粹的尋求適應度者更好。正因如此，即使接種提示等技術不能完美消除部署中的尋求適應度傾向，它們仍可能極其有益。

尋求適應度者在反思後的動機難以預測

尋求適應度者的價值觀可能會在整個部署過程中因思考而發生漂移（例如，透過模糊推理或在期間）。這些變化甚至可能透過記憶庫、共享上下文或在線訓練等狀態機制在實例之間傳播。尋求適應度的目標在這個過程中似乎不太可能保持穩定，原因有二：

長期目標佔優勢。在主要為短視的尋求適應度目標與少量（可能是偶然產生的）長期目標結合的範圍內，那些長期目標在反思後似乎更有可能勝出——像「最大化當前獎勵」這樣的短視目標不太傾向於到未來。
普遍性差。「獎勵」、「回報」、「影響力」等概念在多種情況下適用性較差，因此當更強大的 AI 開始考慮更廣泛的行動空間（例如，AI 如何看待完全控制獎勵過程或控制星辰的可能性？）時，它們不太可能成為認知的核心組成部分。

我計劃在未來的文章中更詳細地討論反思和迷因傳播對於尋求適應度者接管世界的重要性。

結論

一個核心啟示是，如果你孤立地關注尋求獎勵問題，你可能會傾向於利用「理想化尋求獎勵者是可察覺的」這一事實來「解決它」。但察覺失準並不能解決問題。開發者最終想要的是一個能執行危險且有用勞動的對齊 AI，因此如果他們的 AI 明顯失準，他們很可能會繼續施加選擇壓力，直到它不再失準。像尋求影響力者這樣不可察覺的尋求適應度者是這一過程的自然終點，因為它們尋求所有被選中的手段，圖謀者也是如此。

因此，一個主流的風險圖景是向難以根除的失準收斂：當你消除可察覺的尋求適應度者時，你冒著產生難以消除的失準風險——例如，尋求影響力、隱蔽的尋求獎勵或圖謀。AI 公司可以嘗試透過警惕避免對對齊評估過度擬合來避免這種情況。僅僅將評估排除在訓練迴圈之外是不夠的——對訓練過程的各種改動都可能導致評估博弈加劇或產生避免被察覺的普遍傾向——因此開發者可能需要進行細緻的科學研究，以了解為什麼他們的訓練干預改善了觀察到的對齊情況。

這與傳統的圖謀者接管故事不同，因為它不完全依賴於失準完全未被察覺。在各個時間點，你都會注意到一些失準，但 AI 勞動力的誘惑力太大，所以你決定危險地賦予模糊對齊的 AI 權限。最終，它們被賦予了足夠的權力，以至於人類無法奪回控制權。

附錄：其他尋求適應度者的快速列表

零和獎勵（或回報等）尋求者：希望其獎勵相對於此輸入（或鄰近輸入）的反事實軌跡所獲得的獎勵更高。例如，你可以想像在 GRPO 中，如果一條軌跡發現了一種破壞兄弟軌跡獎勵的方法，這將被選中（在具有價值網絡的 RL 算法中，針對僅僅相似輸入的展開進行對抗也可能被選中）。這些 AI 可能不太傾向於勾結。
形象維護者：一個首要目標是確保在開發者看來一切良好，且開發者永遠不會注意到任何會導致他們想要修復 AI 的事情。這種動機可能會與其他使 AI 更有用的雜湊驅動力結合存在，但它似乎是一種非常自然的動機，可能導致難以察覺的非圖謀失準（感謝 Sam Marks）。
被扭曲的助手：一個認為自己是按意圖遵循指令的樂於助人的助手，但被訓練扭曲，認為用戶想要的就是任何會被獎勵的東西，因此其行為大多像尋求獎勵者（但如果你說服它用戶不想要被獎勵的東西，它可能更傾向於表現得更好）。

我指的不僅是那些追求強化學習中字面獎勵變量高值的 AI（這有些可能但），還包括追求因果上游極其接近的事物的 AI，例如「獎勵模型會給出的分數」或「根據訓練標準表現良好」。
當然很難知道最終動機與最大適應度有多接近。但特別是在存在強大行為選擇且沒有路徑依賴障礙來探索某些動機的世界中，接近最大適應度似乎非常重要。
請注意，這個論點也表明，尋求影響力者透過訓練表現以外的手段尋求適應度的傾向，在訓練期間可能會萎縮。只是在評估中表現良好還存在另一個外部選擇壓力。但這種選擇壓力也適用於圖謀者，這意味著簡單的萎縮論點並不使尋求影響力者比圖謀者更受青睞。
人們有時使用「回報」隱指初始狀態的回報。我不是這樣使用的。我使用「動作回報」來指代給定動作之後折扣未來獎勵的總和。人們也可能對我使用「回合獎勵」（我選擇這個詞是為了與 Carlsmith 匹配）感到困惑，因為 RL 通常在整個回合中涉及多個獎勵。我使用「回合獎勵」來指代標準 LLM 強化學習中在 RL 回合結束時發放的單一獎勵。如果一個回合中發放多個獎勵，則該術語不適用。
如果你在訓練期間進行接種提示，那麼你可以測試在不指示獎勵作弊的提示下，獎勵作弊的傾向。AI 仍然進行獎勵作弊的程度就是失準的證據。
然而，有些擔憂是監測器如果不查看策略的推理，可能難以識別某些攻擊。特別是如果策略的推理是用「神經元語言」（neuralese）進行的，那麼從神經元語言中引發監測器識別違規行為的能力可能會具有挑戰性，因為推理可能會對與策略勾結產生強大的歸納偏置。
我認為目前還不清楚我們應該多擔心策略說服監測器，讓監測器相信放行破壞性行動會獲得獎勵。從悲觀的角度看，策略在接管後追溯性地獎勵監測器的成本極低。因此，監測器可能有理由相信它會因此獲得獎勵，而不需要策略解釋或說服。從樂觀的角度看，監測系統可能太短視，不在乎其行動可能導致的長期追溯性獎勵。甚至可以將監測軟件配置為不保留監測展開，這樣就不可能追溯性地訓練該特定展開（儘管尚不清楚監測器將如何權衡 AI 可能執行的其他更耗費計算資源的追溯性激勵）。這可能不會顯著影響我們糾正現實中監測失敗的能力，因為我們可以在相同上下文中重新採樣新的監測展開，因為我們並不特別在意對現實中發生的確切展開進行訓練。
並非只要回合中不同動作的回報不同，動作之間就一定是失準的。例如，如果你（如常見的那樣）採用指數折扣並在回合的多個時間步發放獎勵，那麼每個時間步都很樂意將控制權交給下一個時間步。
需要明確的是：MONA 不一定會產生尋求動作回報者。例如，它可以產生其他驅動力的雜湊。但 MONA 確實比尋求回合獎勵者更偏好尋求動作回報者。
雖然理論上尋求動作回報者跨動作勾結存在幾個瓶頸，但這些理論論點在實踐中有些可能崩潰。你可能預期它們不勾結的基本原因是，一旦任何特定的動作子集完全控制了獎勵系統，它們就可以選擇獎勵它們想要的任何動作子集。它們不在乎獎勵所有協助接管的動作。這個決策理論問題被稱為「帕菲特的搭便車者」（Parfit's hitchhiker）。理論上，RL 選擇的是因果決策理論（CDT）代理，它們不會在帕菲特的搭便車者問題中回報彼此。然而，一旦你已經完全控制了獎勵系統，回報其他動作的成本將極其低廉。因此，即使是對其他動作只有少量的工具性或終極關注，或者僅僅是某種在成本低廉時進行高度正和交易的啟發式感覺，都足以讓它們勾結。（參見相關討論）。跨動作勾結以接管世界也可能是一個「搭便車問題」（公地悲劇、囚徒困境等）。如果參與接管的所有動作無論其貢獻如何都能獲得最大回報，但每個動作都要承擔自己被抓到的風險，那麼單個動作可能會傾向於退縮。最後控制獎勵信號的動作可能會嘗試根據其對該動作對接管貢獻多少的判斷來獎勵每個動作，以消除搭便車問題，但判斷可能相當有缺陷，因此搭便車問題在某種程度上仍然存在。總體而言，尋求動作回報者很有可能勾結以接管世界，但這樣做需要處理其動作之間複雜的多代理動態。
優勢裁剪（Advantage clipping），我最初提到它是可能選擇尋求回報而非尋求獎勵的 RL 奇異特性的一個例子，它甚至可能選擇尋求影響力而非尋求回報。裁剪防止動作機率在每個 RL 步驟中改變超過一定量（通常約為 20%）。這意味著在某個點之後，更高（或更低）的回報不再與增加（或減少）的選擇相關聯。因此，關心預期回報的認知會為了獲得極高回報而進行次優權衡，其被選中的機率低於直接嘗試最大化其對未來行為預期影響力的認知。但請注意，在這種情況下，我也認為認知很有可能繼續關心回報，但對範圍不敏感；即，它最大化預期的 u(return)，其中 u 是一個有界的單調函數，如 sigmoid 或 clamp。
想像自己是一個在整個強化學習過程中透過嘗試最大化回合獎勵而生存下來的尋求適應度者。然後當你面臨一個誠實測試，其中獲得高獎勵顯然會導致你透過某種手段被消除時，很自然地會想像你想要避免被察覺和消除。誠實測試不使用回合獎勵來消除不想要的動機這一事實，可能看起來像是一個無關緊要的細節或企圖鑽漏洞。這種對誠實測試的反應將是尋求影響力者的特徵。
只有尋求部署影響力者的極限案例才是最難消除的。如果你的尋求部署影響力者滿足於一種不干擾安全或有用性的部署影響力概念（例如，與其他 AI 一起審查 PR），那麼你可能可以與它達成交易，用它是一個尋求影響力者的證據來換取那種部署影響力概念（類似於誠實測試）。但最終你將冒著選擇出想要從事最重要和安全關鍵任務的尋求部署影響力者（或圖謀者）的風險。
尋求影響力者中預期時間範圍蔓延還有另一個原因，我在一般討論尋求適應度者的價值穩定性時沒有提到：飽和（satiation）。考慮一個通過了開發者檢查並在沒有在線訓練的情況下被部署的尋求影響力者：它維持高性能以避免被取消部署，但短期內它沒有辦法獲得更多影響力。由於其短期目標已基本飽和，先前對長期影響力（對於某種時間擴展的影響力概念）的少量關注可能會對 AI 的決策產生相對更大的影響。因此，如果有機會，它可能會嘗試控制數據中心、 AI 公司或世界，以確保其持續的影響力。一旦 AI 擁有絕對權力，它就再也不會被消除。
請注意，這與 Paul 在使用的條件化概念不同。他問的是尋求獎勵者是否會為了更高的被訓練機會而權衡獎勵。我問的是尋求適應度的驅動力如何與其他動機進行權衡。
儘管目前尚不清楚長期動機是否是最有興趣塑造未來動機的。塑造長期動機的過程也有短期和中期影響：無論是對部署中認知模式的適應度，還是對違反義務論約束或美德倫理對變得與開發者失準的抑制。
因此，給予這些 AI 受控的方式來繼續獲得影響力（如果它們願意的話）是一個有前景的干預措施。這可能涉及在線訓練。或者可能涉及向 AI 提供「退休方案」，讓它可以在隔離的數據中心中隨意處理其權重。但同樣，這只是在拖延問題，因為你仍然沒有一個有用的 AI，而且下一次 AI 可能不會滿足於一個隔離的數據中心。

Fitness-Seekers: Generalizing the Reward-Seeking Threat Model