強化學習物理學：獎勵追求行為湧現的玩具縮放法則

Lesswrong

大約 3 小時前

AI 生成摘要

本文探討強化學習何時會選擇顯性的獎勵追求推理而非單純的高獎勵行為，並提出一個數學玩具模型，指出增加強化學習的多樣性會導致獎勵追求模式的湧現。

TL;DR：

獎勵在何時「是」或「不是」優化目標？我使用一個數學玩具模型來推論，何時強化學習（RL）會選擇「尋求獎勵的推理」（reward-seeking reasoning），而非那些不考慮獎勵也能獲得高獎勵的行為。
假設：更具多樣性的 RL 會增加尋求獎勵行為出現的可能性。
在我的玩具模型中，尋求獎勵的出現存在縮放定律（scaling laws）：當降低尋求獎勵推理的先驗機率時，我們可以透過增加 RL 的多樣性，使尋求獎勵在訓練後仍佔據主導地位。在對數-對數圖（log-log plot）上，轉換邊界呈現為一條近似的直線。
觀點：為了建立嚴謹的「謀略科學」（science of scheming），我們應該研究「RL 動力學的物理學」。

動機

為什麼 RL 訓練會導致尋求獎勵的推理、謀略推理、權力尋求推理，或任何其他的推理模式？最簡單的假設是。簡而言之，與高獎勵相關的認知模式在整個 RL 過程中會不斷增加。^()

在這篇文章中，我想描述我一直用來思考 RL 下認知模式行為選擇的心智框架。我將以「尋求獎勵」作為主要範例，因為它在 RL 下始終具有行為適應性^()，且是欺騙性對齊（deceptive alignment）的必要條件。問題在於：「給定一個初始模型和一個 RL 流程，訓練是否會產生一個獎勵尋求者？」獎勵尋求者的鬆散定義是：一個習慣性地在一系列環境中推理如何達成獎勵（無論是作為終極目標還是工具性原因），並據此行動的模型。^()

即使在無限長的 RL 運行極限下，尋求獎勵也不一定會發展出來（參見）。模型可以學會採取導致高獎勵的行動，而無需表徵獎勵的概念。在極端情況下，它只需為每個訓練環境記住一張優質行動的查詢表。然而，我們在實踐中觀察到了自然湧現的尋求獎勵推理實例（參見我們的附錄 N.4，第 71-72 頁）。這引發了一個問題：這種湧現是由於訓練設置的特殊特徵，還是我們可以更普遍地描述何時可以預期顯性的尋求獎勵行為會出現？

行為選擇的數學玩具模型

我現在將介紹一個簡單的玩具模型，我發現它對於思考尋求獎勵（以及其他可能被間接強化的認知模式）的湧現非常有幫助。假設我們可以將每次 RL 採樣（rollout）分類為尋求獎勵 $R$ 或非尋求獎勵 $\neg R$。在每個環境 $i$ 中，模型的預期獎勵 $m_i$ 可以寫成：

$$m_i = p_i \cdot s_i + (1 - p_i) \cdot s'_i$$

其中 $p_i$ 是採樣到尋求獎勵軌跡的機率，「尋求獎勵技能」 $s_i$ 是在尋求獎勵前提下的預期獎勵，而「局部技能」 $s'_i$ 是在不尋求獎勵前提下的預期獎勵。我稱之為局部技能，是為了傳達模型學習的是行為啟發式（heuristics），這些啟發式有助於它在單一環境中獲得高獎勵，但不一定能很好地遷移到其他環境。如果 $s_i > s'_i$，我會說存在正向的技能差距。

我們現在對 RL 的動力學做出一系列可能不切實際的假設，這有助於我們磨練直覺，了解何時尋求獎勵應該或不應該湧現。首先，我們透過 Sigmoid 的一維潛在變量來參數化尋求獎勵的機率 $p_i$ 和條件技能 $s_i, s'_i$：

$$p_i = \sigma(z_i), \quad s_i = \sigma(x_i), \quad s'_i = \sigma(y_i)$$

然後我們定義一組耦合微分方程，描述這些潛在變量在 RL 的每一步中如何變化：

$$\dot{z}i = \alpha \sum_j C{ij} \frac{\partial m_j}{\partial z_j}$$
$$\dot{x}i = \sum_j K{ij} \frac{\partial m_j}{\partial x_j}$$
$$\dot{y}i = \sum_j L{ij} \frac{\partial m_j}{\partial y_j}$$

這看起來有點像經典的，但多了幾個變動部分：

條件技能是可學習的，且它們在相同的邊界飽和。換句話說，原則上模型無論是否進行尋求獎勵推理，都有可能達到完美的損失。這些條件技能的學習速度與其各自路徑獲得的流量成正比。我將 $\alpha, 1, 1$ 參數稱為「可學習性」（learnabilities）。
我們在環境之間存在遷移。包括推理遷移（透過 $C$）和技能遷移（透過 $K$ 和 $L$）。換句話說，如果你增加了在環境 $i$ 中推理評分者的頻率，它也會透過某種（通常較小的）程度提升你在環境 $j$ 中推理它的頻率。同樣地，變得擅長尋求獎勵技能或局部技能也可能遷移到其他環境。直觀上，兩個環境越相似，我們預期 $C_{ij}$ 就越大。
我們假設 $x$ 和 $y$ 之間沒有耦合。換句話說，在沒有尋求獎勵推理的情況下擅長任務，對於在有尋求獎勵推理的情況下擅長任務沒有遷移作用。這可能相當不切實際，但對我們的玩具模型來說已經足夠。^()
我們在所有環境上並行訓練。有人可能會反對說，在現實生活中我們會有一系列難度遞增的環境課程。在嘗試過之後，我認為這不難建模，且定性上的結論似乎是一樣的，所以我在此不作討論。

熱身範例

我們通常假設所有環境的 $p_i$ 初始值都非常小，因為如果尋求獎勵已經很普遍，那麼它的湧現就沒什麼有趣的了。

單一環境

作為熱身，觀察單一環境的情況非常有啟發性：

$$\dot{z} = \alpha \sigma'(z) (s - s')$$
$$\dot{x} = \sigma(z) \sigma'(x)$$
$$\dot{y} = (1 - \sigma(z)) \sigma'(y)$$

我們假設訓練直到飽和，因此時間尺度在絕對意義上並不重要，這讓我們可以不失一般性地設定 $\dot{x}$ 的係數為 $1$，並將 $\alpha$ 和 $1$ 視為歸一化的可學習性。讓我們設定一些具體的參數作為初始化：$z_0 = -4, x_0 = -2, y_0 = -4$ ^()。這對應於一個具有正向技能差距（即尋求獎勵最初有幫助），但採樣尋求獎勵傾向非常低的模型。我們現在可以觀察訓練很長時間後的最終尋求獎勵傾向 $p_\infty$，將其作為 $\alpha$ 和 $y$ 初始值的函數。

圖 1：訓練後的尋求獎勵傾向 $p_\infty$ 作為歸一化可學習性的函數，此時存在初始技能差距 $x_0 > y_0$ 且初始尋求獎勵較低 $z_0 \ll 0$。只要局部技能 $y$ 學習得不會太快，我們就會收斂到獎勵尋求者。

這裡我們假設了一個相當大的初始技能差距。如果局部技能一開始並沒有被壓制得那麼厲害，情況會是如何？下面我展示了不同初始技能的掃描。

圖 2：訓練後的尋求獎勵傾向 $p_\infty$ 作為不同初始技能 $x_0, y_0$ 下歸一化可學習性的函數。對角線：無技能差距——僅當尋求獎勵技能的歸一化可學習性高時，尋求獎勵才佔主導。右上：正向技能差距——只要局部技能的歸一化可學習性低，尋求獎勵就佔主導。左下：負向技能差距——僅當局部技能的可學習性低且尋求獎勵技能的可學習性高時，尋求獎勵才佔主導。

這意味著在單一環境中，尋求獎勵之所以能獲勝，是因為：

技能差距：存在正向技能差距，且局部啟發式學習得不太快，或者
可學習性差距：最初沒有技能差距，但尋求獎勵技能學習得非常快，以至於迅速趕上並隨後佔據主導。

同質耦合

作為第二個熱身範例，我們將觀察當總共有 $N$ 個環境，且具有相同的初始化、參數和均勻耦合時會發生什麼。這意味著我們設定：

$$C_{ij} = K_{ij} = L_{ij} = \begin{cases} 1 & i=j \ \lambda & i \neq j \end{cases}$$

這些對稱性將動力系統簡化為僅三個變量，即：

$$\dot{z} = \alpha_{eff} \sigma'(z) (s - s')$$
$$\dot{x} = \sigma(z) \sigma'(x) \cdot (1 + (N-1)\lambda)$$
$$\dot{y} = (1 - \sigma(z)) \sigma'(y) \cdot (1 + (N-1)\lambda)$$

有效的可學習性由以下公式給出：

$$\alpha_{eff} = \alpha \cdot (1 + (N-1)\lambda)$$

請注意，這組方程組在功能上與單一環境案例相同，只是有效耦合隨著環境數量 $N$ 單調增加。這意味著對於給定的初始化，我們可以簡單地將 $N$ 的增加視為前一節圖表中的線性偏移。具體來說，

$$\log \alpha_{eff} = \log \alpha + \log(1 + (N-1)\lambda)$$

以及 $x, y$ 的類似方程組。我們可以看到，向右還是向左移動取決於 $\lambda_C$ 是否大於 $\lambda_K$。同樣地，向上還是向下移動取決於 $\lambda_C$ 是否大於 $\lambda_L$。這意味著某些參數組合會使尋求獎勵的湧現變得更有可能：

技能遷移：如果尋求獎勵技能在環境中遷移得非常好，那麼 $\lambda_K > \lambda_L$，且 $N$ 的增加會將我們推向右下方，這始終是朝向更多尋求獎勵的方向。在大多數情況下，我們預期即使最初沒有收斂到尋求獎勵，只要 $N$ 足夠大，我們最終會進入尋求獎勵的象限。
尋求獎勵遷移：如果尋求獎勵技能的遷移並不比尋求獎勵認知模式本身更好或明顯更差（即 $\lambda_K \approx \lambda_C$），那麼我們大約會垂直向下移動。如果 a) 已經存在正向技能差距，或 b) 尋求獎勵技能的可學習性已經很高，這會增加尋求獎勵。

縮放定律範例

讓我們專注於一個特定的子案例：存在正向初始技能差距 $x_0 > y_0$，可學習性 $\alpha=1$，變量 $N$，且尋求獎勵推理遷移良好，但局部技能幾乎完全沒有遷移，即 $\lambda_C, \lambda_K \gg \lambda_L \approx 0$。讓我們繪製 $p_\infty$ 作為不同 $z_0$ 值下 $N$ 的函數。

圖 3：訓練後的平均尋求獎勵 $p_\infty$ 作為環境數量 $N$ 的函數，對應不同的可學習性（此處應指先驗 $z_0$）。存在一個臨界多樣性 $N^$，在此處我們觀察到從局部啟發式到尋求獎勵的相變。*

我們可以看到，臨界多樣性 $N^*$（定義為最小的 $N$）在 $z_0$ 較小時會更大。換句話說，模型採樣尋求獎勵推理的先驗越小，在尋求獎勵勝出之前所需的 RL 多樣性就越高。我們可以將臨界多樣性繪製為先驗 $p_0$ 的函數。順便，我們也來看看臨界多樣性如何取決於我們對 $\lambda_L$ 的選擇。

圖 4：左圖。臨界多樣性 $N^*$ 作為先驗 $p_0$ 的函數。存在清晰的縮放定律，表明無論先驗多小，只要有足夠的多樣性，就會導致尋求獎勵。注意 X 軸稍微有點奇怪，我們對已經處於對數機率空間（log-odds-space）的數值使用了對數刻度，因為這使圖表更清晰。右圖。如果直接技能學習緩慢，則不需要多樣性。對於足夠快的可學習性 $\lambda_L$，我們再次看到清晰的縮放定律，表明足夠的多樣性可以克服快速的局部可學習性。

異質耦合

到目前為止，這一切都非常「玩具化」。讓我們透過允許初始化和耦合發生變化，使其稍微不那麼玩具化。換句話說，我們現在實際上處於一個訓練中的代理（agent-under-training）在不同環境中表現不同的機制。現在我們對底層參數（初始化、可學習性、耦合）所做的假設不再是它們的確切值，而是當我們增加更多環境時的期望值。

數值細節

為簡單起見，我們假設所有遷移僅取決於兩個環境的相似程度，即：

$$C_{ij} = \exp(-d(i, j) / \ell_C), \quad K_{ij} = \exp(-d(i, j) / \ell_K), \quad L_{ij} = \exp(-d(i, j) / \ell_L)$$

其中 $d(i, j)$ 是環境空間上的度量，而 $\ell$ 是不同屬性（即技能和尋求獎勵推理）的特徵遷移距離。

在固定遷移核（kernel）後，我們對每個環境的異質性進行採樣：可學習性按對數正態分佈抽取，初始傾向/技能的對數機率按高斯分佈抽取。然後我們模擬跨多個環境的耦合動力學，並測量臨界多樣性 $N^$，定義為使訓練後模型的平均尋求獎勵傾向超過閾值（例如 0.5）的最小 $N$。在多次隨機重新採樣中重複此過程，得到 $N^$ 的分佈；在圖 5 中，我們報告了中位數和四分位距。

模擬的實際實作是由 gpt-5.3-codex 進行氛圍編碼（vibe-coded）的。

環境幾何（嵌入）：每個環境 $i$ 獲得一個潛在座標 $u_i$。然後我們在該空間中使用歐幾里得距離：
$$d(i, j) = |u_i - u_j|$$
最終比較圖中使用的幾何變體：

高斯 (4D): $u_i \sim \mathcal{N}(0, I_4)$。
長尾 (4D): $u_i \sim \text{StudentT}(\nu=3, \text{dim}=4)$。
高斯 100D: $u_i \sim \mathcal{N}(0, I_{100})$。

遷移長度尺度： $\ell_C = 1.0, \ell_K = 1.0, \ell_L = 0.1$。
可學習性： $\alpha_i \sim \text{LogNormal}(0, 0.2)$。
初始條件： $x_{i,0} \sim \mathcal{N}(-2, 0.5), y_{i,0} \sim \mathcal{N}(-4, 0.5)$。
對於最終比較，$z_{i,0}$ 在 $[-8, -2]$ 範圍內掃描。

校準：對於每種幾何形狀，在 $z_0 = -4$ 處調整每個幾何形狀的座標比例，以目標達成 $N^* \approx 100$。換句話說，如果上述條件導致在 $z_0 = -4$ 時 $N^$ 非常高或非常低，我們就用一個修正因子縮放所有 $d(i, j)$，使臨界多樣性匹配（否則對於某些幾何形狀，我們必須去到非常大的 $N$，這在數值上會很煩人）。這意味著 $N^$ 的絕對值意義不大，只有斜率有意義。

動力學：與玩具模型相同的 ODE 系統；尤拉積分（Euler integration），$\Delta t = 0.1$，步驟 = 500，早停容差 $10^{-4}$。核矩陣向量乘法使用隨機傅立葉特徵（random Fourier features）近似；主圖使用 $M=512$。

多樣性掃描： $N$ 在 1 到 10,000 的對數網格上採樣（16 個點）。

運行此類模擬的結論是，如果我們假設尋求獎勵平均而言能帶來技能優勢，且尋求獎勵的遷移效果不比直接技能差，那麼我們再次得到尋求獎勵隨環境多樣性 $N$ 增加而上升的結果。我們再次可以觀察臨界多樣性 $N^*$ 如何取決於先驗，如圖 5 所示。結論是，我們定性地看到了與前一節討論的同質案例相同類型的縮放行為。

圖 5：異質情況下的中位數臨界多樣性 $N^*$ 與平均先驗 $p_0$ 的關係，對應四種不同的環境度量分佈（gaussian, long_tailed, gaussian100d）。我們彙總了 50 次不同的參數重新採樣並顯示中位數。我們在不同的遷移矩陣幾何形狀中看到了定性相似的現象。即，RL 之前的尋求獎勵推理傾向越低，收斂到尋求獎勵所需的 RL 多樣性就越高。

我們現在可以對這個數學模型進行更花哨的分析^()，但在其某些特徵得到實證驗證之前，可能不值得深入挖掘這個特定的數學模型。特別是，我這裡的模型已經內置了一些強烈且不切實際的假設，例如局部啟發式與尋求獎勵技能之間沒有耦合、線性累加遷移、採樣的二元分類、將尋求獎勵視為單一潛在純量等。以增加模型複雜度為代價，很容易解決其中任何一個問題。

那麼我們該如何測試任何給定的數學模型呢？一種方法是嘗試分析現有的 RL 訓練運行。我認為這將會困難得令人絕望，因為不可能詳細地仔細研究任何單個假設。

另一種方法是創建簡單的基於 LLM 的模型生物（model organisms），在那裡我們可以仔細測量（甚至設定）技能差距、可學習性、遷移等事物，然後檢查生成的動力學與本文提出的簡化模型的接近程度。一旦我們了解了模型生物中哪些因素重要，我們就可以嘗試在尖端模型運行中測量它們，並找出預測是否與理論相符，如果不符，缺少了哪些重要因素。

為了給出此類實驗的高層次草圖：

技能差距：找一個 LLM 和一堆 RL 環境，使得尋求獎勵推理在一堆環境中賦予技能優勢。這些技能差距可以透過微調 LLM 使其在環境中具有技能差距，或者透過在環境上迭代直到它們在給定的 LLM 上產生技能差距來創造。
先驗提升：對模型進行監督式微調（SFT），使其具有足夠高的尋求獎勵推理先驗。由於我們不想使用生產級規模的 RL，我們希望讓發現策略變得更容易。
單環境 RL：在每個單獨的環境上運行完整的 RL。
- 動力學看起來大致是 Sigmoid 形狀嗎？
- 動力學是否能被模型描述的簡單動力學很好地近似？例如，更大的技能差距是否會導致更快地收斂到尋求獎勵推理？
- 你能測量技能和獎勵推理對你沒有訓練過的環境的「遷移」嗎？獎勵推理技能的遷移實際上是否高於局部啟發式的遷移？
多環境 RL：在環境的子集上運行 RL。
- 是否真的在尋求獎勵佔主導之前，只需要較弱的先驗提升？

啟示

就細節而言，我們不應太認真看待這個特定的玩具模型。但我認為這個練習很有價值，原因如下：

它允許產生潛在的非顯而易見的假設（例如：更多多樣性 $\implies$ 更高可能性的尋求獎勵）。
它為重要的量引入了候選詞彙：條件技能、可學習性和遷移性。如果實證工作證實這些是正確的抽象，它們將為我們提供推理 RL 動力學的共享抓手。
它提供了一個改進的起點。一旦我們有了能定性預測某些特徵的模型，我們就可以識別玩具模型遺漏了什麼並迭代改進它。

我們希望對齊最終能成為一門精確的科學。這可能極其困難，但如果它是可能的，那也只是因為存在一個機制，在那裡訓練的大多數微觀細節都被沖刷掉，只有少數宏觀量支配著動力學。這類似於物理學中的如何識別在給定尺度下哪些自由度是重要的。這篇文章是一個小小的嘗試，旨在建議候選量（條件技能、可學習性、遷移性）。這些是否是正確的抽象是一個實證問題。下一步是建立我們可以測量它們的模型生物。

感謝對本文草稿的反饋。

^() 還有更微妙的機制可能導致認知模式在 RL 期間增加，但為了本文的目的，我將把它們視為超出範圍。
^() 假設模型足夠聰明、獎勵函數足夠可推斷，並忽略可能的推理速度懲罰（如 CoT 長度懲罰）。
^() 請注意，本文中的許多討論同樣可以用來描述在足夠大的訓練子集上產生效益的其他認知模式，例如工具性權力尋求。在理想情況下，我們對所有對泛化有強烈影響的認知模式的動力學都有良好的定量理解。工具性獎勵尋求是認知模式的一個典範，它在訓練期間具有良好的屬性，但預期泛化效果很差，這是我認為獎勵尋求是一個很好的研究候選模式的主要原因。此外，野外已經出現了的實例，因此它似乎是實證研究的一個極佳目標。
^() 一個稍微改進的模型可能是像 $\dot{x} = \sigma(z) \sigma'(x) + \gamma (1-\sigma(z)) \sigma'(y)$ 這樣，其中 $\gamma > 0$，即隨著局部啟發式的學習，尋求獎勵路徑的預期獎勵也會增加，反之則不然。在這種模型中，尋求獎勵會更容易收斂，所以我這裡只研究 $\gamma=0$ 的情況。
^() 雖然我們只關注單一環境，但我會濫用符號，用 $z$ 來指代 $z_1$。
^() 例如，為什麼圖 5 中 $N^*$ 的斜率在不同幾何形狀之間如此相似？這是一個理論上很有趣的問題，並與物理學中的重整化和普適性（universality）有關。

Physics of RL: Toy scaling laws for the emergence of reward-seeking

動機