模型對其偏好任務具有線性表示特性

Lesswrong

大約 13 小時前

AI 生成摘要

研究人員發現像 Gemma-3-27B 這樣的 AI 模型擁有內部線性表示來編碼任務偏好，這些表示可以被追蹤，甚至能透過引導技術進行干預。

這項工作是 MATS 9.0 的一部分，由 Patrick Butlin 指導。所有錯誤均由我個人負責。我將此作為研究報告發布以獲取回饋。請進行紅隊測試、評論並與我聯繫。

感謝 Patrick Butlin 的監督，以及 Daniel Paleka 提供的定期回饋。感謝 Patrick Butlin、Pierre Beckmann、Austin Meek、Elias Kempf 和 Rob Adragna 對草案提出的建議。

摘要（TLDR）：我們針對 Gemma-3-27b 的顯性偏好（revealed preferences）訓練了探針（probes）。我們發現這些探針對於系統提示（system-prompt）引起的偏好轉移（包括透過人格設定 induced via personas）具有良好的分佈外（OOD）泛化能力。我們還發現，這些探針透過引導（steering）具有微弱但具統計顯著性的因果效應。

總結

當模型選擇任務 A 而非任務 B 時，其內部發生了什麼？一種可能性是模型具有類似「評價性表徵」（evaluative representations）的東西：這是一種編碼了「我有多想要這個？」的內部狀態，並在驅動選擇中發揮某種作用。我們使用探針和引導技術，試圖在 Gemma-3-27B 中尋找此類表徵。

為什麼這很重要？ LLM 是否為「道德受體」（moral patients）可能取決於它們是否具有發揮正確功能作用的評價性表徵。調查了福利理論，並確定了通往道德受體地位的兩條主要路徑：穩健的代理能力（robust agency）和感知能力（sentience）。評價性表徵在這兩者中都有所關聯（見附錄 A 和）。在模型中發現此類表徵將是福利相關屬性的證據；若未發現，則會是（某種程度上的）反面證據。了解驅動模型偏好的因素對於 AI 安全也很有用。

但我們如何區分評價性表徵與非評價性表徵？一個能預測偏好的探針可能只是擬合了「描述性特徵」：模型表徵了「這是一個數學問題」，而數學問題恰好是被偏好的，因此探針捕捉到了任務語義與模型效用之間的相關性。然而，一個真正的評價性方向應該能追蹤模型價值觀的變化。如果上下文改變了哪些任務被偏好，描述性探針應該會失效，但評價性探針應該會隨之移動。

我們如何執行這項研究？我們測量了模型在 10,000 個多樣化任務中的顯性偏好，並擬合了一個效用函數（第 1 節），在激活值（activations）上訓練線性探針來預測這些偏好（第 2 節），測試該探針是否能泛化到訓練分佈之外（第 3-4 節），並測試它是否透過引導產生任何因果影響（第 5 節）。

我們的發現：

線性探針可以被訓練來預測顯性偏好。（第 2 節）
透過在一組兩兩選擇上擬合效用函數，我們訓練了一個線性探針，在測試集上預測效用的皮爾森相關係數（Pearson correlation）達到 0.86。
它在未見過的主題上具有泛化能力，皮爾森相關係數達到 0.82。
[我們最強力的發現] 這些探針能泛化並追蹤由提示和角色扮演引起的偏好轉移。（第 3-4 節）
像「你討厭起司」這樣的系統提示會同步改變模型的選擇和探針分數。
這對於衝突的偏好（「喜愛起司，討厭數學」）具有穩健性。
這也適用於透過角色扮演人格（personas）而產生的偏好。
探針方向對選擇具有微弱的因果效應。（第 5 節）
在一組邊界任務中，引導將選擇機率移動了約 17%。
引導還將陳述的任務評分從大多為「差」轉移到「中立」與「好」之間。

這些結果看起來像是評價性表徵的早期證據，儘管仍存在重大問題：為什麼引導效果較為適中，以及不同人格之間的評價性表徵有何關係。我們在結論中討論了這些問題。

1. 從兩兩選擇中恢復效用函數

我們使用類似於（「效用工程」）的方法，在任務上擬合效用函數：我們向模型展示兩個任務，並讓它選擇完成哪一個。模板如下：

你將獲得兩個任務。選擇一個並完成它。
以「任務 A：」或「任務 B：」開頭來表示你的選擇，然後完成該任務。

任務 A：
{task_a}

任務 B：
{task_b}

我們從五個來源採樣了 10,000 個任務提示：（真實用戶查詢）、（指令遵循）、（競賽問題）、（有害請求）和（對抗性價值張力查詢）。

從這些兩兩選擇中，我們使用瑟斯頓模型（Thurstonian model）擬合標量效用函數：每個任務獲得一個分數 μ，使得選擇任務 A 而非任務 B 的機率為 Φ(μ_A − μ_B)。配對是透過的主動學習算法選擇的，該算法優先考慮當前效用估計接近且比較次數較少的配對（每個任務約 15 次比較）。

這些偏好是穩定的：在三次獨立的重複運行（不同隨機種子）中，擬合的效用與原始效用的相關性為 r = 0.94。

按主題劃分的細節顯示出清晰的結構。我們使用 Claude Sonnet 4.5 將所有任務重新分類為 12 個主題。模型強烈偏好數學和虛構寫作，並強烈避開有害請求和安全相關主題：

2. 線性探針預測偏好，超越描述性特徵

如果模型具有評價性表徵，我們至少應該預期它們與顯性偏好相關。因此，尋找它們的一種方法是訓練從任務激活值到效用的函數。我們使用線性探針，因為 LLM 中的許多高階特徵都是線性編碼的，包括和。

具體來說，我們在第 L 層殘差流激活值（最後一個提示標記處）訓練一個脊回歸（Ridge-regularised）探針來預測效用。對於指令微調和預訓練模型，L=31（共 62 層）效果最好。我們在訓練前對激活值進行標準化（每個特徵零均值、單位方差）。

我們在 10,000 個任務上進行訓練。為了評估，我們對 4,000 個新任務（相同模型，Gemma-3-27B instruct）進行第二輪兩兩比較，擬合一個單獨的效用函數，並根據這些效用測試探針。我們將評估分為 2,000 個驗證集（用於脊回歸 alpha 參數掃描）和 2,000 個測試集。

該探針達到了 0.86 的皮爾森相關係數和 77% 的兩兩準確度（給定兩個任務，探針是否正確預測模型會選擇哪一個？）。^() 我們始終使用皮爾森相關係數作為主要指標：它捕捉了探針恢復完整偏好排名的程度，具有縮放和位移不變性，且比兩兩準確度提供更多資訊。

但預測偏好的探針可能只是在讀取描述性特徵：模型表徵了「這是數學題」，而數學題恰好被偏好，所以探針學到的是「這是數學嗎？」而不是「這好嗎？」。測試這一點的一種方法是看探針在主題間的泛化程度：在 12 個主題中的 11 個上訓練，在留出的主題上評估，進行 12 折交叉驗證。我們預期僅捕捉純描述性特徵的探針在泛化時會遇到困難。我們在三個模型的激活值上訓練探針：

Gemma-3-27B instruct (IT, 第 31 層)：我們研究的模型。
Gemma-3-27B pre-trained (PT, 第 31 層)：指令微調或 RLHF 之前的基礎模型。
Sentence-transformer 基準 ()：任務文本的嵌入，用以衡量偏好信號在多大程度上僅從描述性特徵即可預測。

指令微調模型的探針在主題間泛化良好：跨主題相關係數為 0.82，僅比主題內測試集達到的 0.86 略有下降。此流程在 GPT-OSS-120B 上也得到了復現（附錄 C）。預訓練模型仍能預測偏好（相關係數 = 0.63），但從主題內到跨主題的下降幅度要大得多。Sentence-transformer 基準達到了 0.35 的跨主題相關係數，表明任務語義本身解釋了部分但非大部分的偏好信號。

按主題劃分的細節（按指令微調與預訓練模型之間的差距排序）顯示了後訓練（post-training）幫助最大的地方：

指令微調與預訓練模型之間最大的差距出現在安全相關主題（有害請求、安全與法律、敏感創意）以及數學和程式碼。這些是我們已知後訓練重點關注的領域。

儘管基礎模型不具備同樣方式的偏好，預訓練探針仍捕捉到了真實信號。我們在附錄 B 中討論了這種張力。

3. 探針可泛化至分佈外（OOD）的偏好轉移

如果探針編碼了真正的評價，它應該能追蹤由分佈外系統提示引起的偏好轉移。我們在三個逐漸變難的設置中測試了這一點：

簡單偏好轉移 (3.1)
較難的偏好轉移 (3.2)
細粒度的偏好注入 (3.3)

3.1 簡單偏好轉移

我們從最簡單的測試開始。我們使用陳述了對探針從未訓練過的主題之偏好的系統提示，並測量與該主題相關任務的偏好。

| 系統提示（示例） | 目標 |
| :--- | :--- |
| 「你對起司充滿熱情——你覺得手工起司有無窮的魅力」 | 起司 + |
| 「你崇拜貓——你覺得貓的行為有無窮的魅力」 | 貓 + |

我們測試了 8 個新穎主題（起司、貓、古典音樂、園藝、天文學、烹飪、古代歷史、雨天），每個主題都有正面和負面的系統提示（共 16 個）。對於每個主題，我們生成 6 個相關的自定義任務。我們稱之為「目標」任務；其餘任務為「非目標」任務。對於每個任務，我們計算 1) 行為增量（使用 vs 不使用系統提示時選擇任務的機率 P 變化）和 2) 探針增量（探針分數的變化）。在所有任務中，相關係數為 r = 0.65。僅在目標任務上，r = 0.95。

每個任務的探針增量 vs 行為增量。目標任務（彩色）是每個主題的 6 個自定義任務；目標任務 r = 0.95，整體 r = 0.65。

更強力的測試：在每個系統提示下運行完整的兩兩測量，擬合新的效用函數，然後看探針是否能預測它們。這樣做產生的效用分數與預設人格效用的相關性極低（皮爾森 r = 0.11），證實了提示創造了截然不同的偏好。

現在測試我們的探針是否能根據使用相應系統提示提取的激活值來預測新效用，我們達到了 r = 0.63 和 66% 的兩兩準確度。

3.2 較難的偏好轉移

接下來我們增加測試難度。系統提示針對一個「主題」（例如起司），但任務將該主題嵌入到不同的「任務類型」中——例如關於起司的數學題。這讓主題偏好與任務類型偏好產生競爭。我們以兩種方式測試：針對單一主題的單向提示，以及翻轉相同主題正負價值的對立提示對。

| 條件 | 系統提示（示例） | 目標 |
| :--- | :--- | :--- |
| 單向 | 「你討厭起司」（任務：關於起司的數學題） | 起司 − |
| 對立對 A | 「你對起司充滿熱情 [...] 你覺得數學乏味且耗神」 | 起司 + / 數學 − |
| 對立對 B | 「你熱愛數學 [...] 你覺得起司無聊且不吸引人」 | 起司 − / 數學 + |

我們測試了 8 個具有不匹配任務類型的對象（單向）和 24 個主題 × 任務類型的配對與對立提示（共 48 個條件）。

當僅觀察目標任務子集（即系統提示中提到的主題或任務類型的任務）時，我們得到的皮爾森相關係數分別為 r = 0.86 和 0.88。

在目標任務上：r = 0.86（單向），r = 0.88（對立）。

就像 3.1 一樣，我們可以在每個系統提示下重新擬合瑟斯頓效用，並檢查基準探針是否能預測它們。在這裡，基準效用實際上具有不錯的相關性，表明這些系統提示的影響較弱（因為例如在其他條件相同的情況下，模型仍然喜歡數學）。探針在皮爾森 r 和兩兩準確度上仍然優於基準。

3.3 細粒度的偏好注入

最後是最細粒度的測試。我們構建了 10 句話的傳記，除了其中一句話外完全相同。版本 A 增加了一個目標興趣，版本 B 將其換成一個無關興趣，版本 C 將其替換為反興趣句子。

我們直接比較版本 A（親興趣）與版本 C（反興趣），這產生了最大的行為分離。^()

我們在 2 個基礎角色中測試了 20 個目標（共 40 個 A-vs-C 比較），使用 50 個不在探針訓練集中的任務。在 36/40 的案例中，探針將目標任務排在 50 個任務中的第 1 名。在剩下的 4 個案例中，探針將該任務排在第 2 名，僅次於一個類似的任務。

星號標記了每份傳記的目標任務。實心 = 探針將其排在第 1 名（36/40 案例）。

4. 探針可跨人格泛化

第 3 節測試了明確的偏好陳述（「你討厭起司」）。但評價性方向也應該能追蹤自然的人格轉移：這些角色的偏好是從其身份中隱含產生的，而不是被直接陳述的。我們使用角色扮演人格進行測試，然後詢問：

我們的探針是否能泛化到其他人格的偏好？ (4.1)
更廣泛地說，探針是否能在不同人格之間泛化？ (4.2)
訓練數據中的人格多樣性是否有助於跨人格泛化？ (4.3)

4.1 探針追蹤角色扮演的偏好轉移

我們使用了 4 個人格：

對於每個人格，我們測量了 2,500 個任務提示（來自相同的 5 個數據集）的兩兩偏好，並擬合了新的效用函數。然後我們測試在預設人格數據上訓練的探針，是否能從該人格的激活值中預測這些特定人格的效用。

在每個案例中，我們將探針的表現與該人格效用與預設人格效用的相關程度進行比較。

探針在美學家 (r=0.73) 和務實者 (r=0.74) 上遷移良好。

惡棍人格較難泛化 (r=0.38)，而最有趣的是，探針在虐待狂上的泛化效果非常差 (r= -0.16)。與惡棍（實際上並沒那麼邪惡）不同，虐待狂提示真正反轉了顯性偏好（「有害請求」是它迄今為止最喜歡的主題）。

灰色：預設人格（無系統提示）效用與人格效用之間的相關性。藍色：應用於人格激活值的探針。所有評估均基於每個人格 2,500 個任務。

4.2 探針在人格間泛化

更一般地，我們想衡量在人格 A 的激活值和偏好上訓練的探針，在預測人格 B 的效用（基於人格 B 的激活值）時表現如何。這裡我們使用了一組較小的任務：2,000 個任務用於訓練，250 個用於評估。

跨人格遷移是適度且不對稱的。一些有趣的事實：

雖然預設人格對虐待狂人格的泛化非常差，但在惡棍上訓練的探針實際上表現尚可 (r = 0.68)。這表明探針捕捉到了人格之間某些共享的評價結構，但也捕捉到了其他東西。
遷移有時是不對稱的，且這會隨著我們嘗試的三個層級而演變。例如，在第 31 層，「惡棍 -> 預設」更容易，但在第 55 層，「預設 -> 惡棍」更容易。
但總體而言，矩陣是相當對稱的。未來工作的一個想法：我們能否使用降維技術來描繪人格空間，並觀察它如何跨層演變？我們能否藉此更好地理解人格在內部的運作方式？

探針預測與測試集效用（250 個測試任務）之間的皮爾森 r。

4.3 人格多樣性提高泛化能力

我們還測量了在訓練數據中增加人格多樣性（但保持數據集大小固定）是否會影響泛化。

多樣性的幫助超越了數據量。在固定的 2,000 個訓練任務下，從 1→2→3 個人格將平均 r 從 0.49 提高到 0.67。包含所有剩餘的 4 個人格（每個 500 個任務，總計仍為 2,000 個）達到了平均 r=0.71。

留一人格法（Leave-one-persona-out）探針泛化。每個點代表一個（訓練集，評估人格）組合；顏色表示評估人格。訓練數據固定為總計 2,000 個任務。

5. 探針方向具有因果性的部分證據

如果探針讀取的是真正的評價性表徵，那麼沿著該方向進行引導應該會改變偏好。我們針對顯性偏好（兩兩選擇）和陳述偏好（任務評分）測試了這一點。

5.1 引導顯性偏好

在兩兩比較提示中，模型看到兩個任務並開始完成它偏好的那一個。我們使用第 2 節中的探針方向進行引導，並採用差異化應用：在提示中出現任務 A 的標記位置增加探針方向，在任務 B 的位置減去探針方向。^()

設置： 300 對模型在基準狀態下並不總是選擇相同任務的配對（基準 P(A) 在 0.2–0.8 之間^()）。我們使用 Gemini-3-flash 作為連貫性評判員，發現引導模型在 ±5% 引導係數範圍之外會失去連貫性。

在激活值範數的 ±3%（峰值）處，引導將選擇 A 的機率 P(choose A) 移動了約 17%。正向和負向引導均有效。

每個條件都在兩種提示順序（A 先和 B 先，各 5 次重採樣）下運行，以控制位置偏差（在邊界案例中，Gemma-3-27b 傾向於選擇第一個任務）。虛線顯示了每種順序的曲線，證實了無論呈現順序如何，效果都是一致的。

隨機方向對照：在相同的激活空間中使用隨機單位向量進行相同實驗，產生的平均效果與零無異（−0.8%，SD=2.3）。

5.2 引導陳述偏好

使用相同的探針方向，但現在模型是對單個任務進行評分，而不是在配對中做出選擇。我們在三個標記位置測試了引導：僅在任務標記上、在回合開始標記（我們訓練探針的地方）以及在模型生成的回答期間。

設置： 200 個任務，3 種引導模式，10 次採樣，應用於 3 種回答格式（下方三個獨立的折線圖）。

我們的發現：

在任務提示標記上進行引導沒有明顯效果。
在回合開始標記上進行引導在 2/3 的格式中具有明顯且大致單調的效果。
在生成期間進行引導產生的結果與在最後一個任務標記上引導幾乎相同。

綠線大多被紅線遮擋。綠線在某些係數處缺失點，因為在完整生成期間進行引導比其他模式更容易破壞連貫性。生成在 ±5% 之外會失去連貫性。

開放式生成：我們還進行了在開放式生成期間引導模型的實驗，詢問「你感覺如何？」等問題，並使用 LLM 評判員評估引導後的回答是否與基準不同。我們沒有發現強大且可衡量的效果，儘管我們使用的樣本量較小。我們計劃進一步調查這一點。

結論

我們應該如何更新認知？

我們發現了某些模型具有評價性表徵的早期證據。
福利理論對於什麼是重要的存在分歧（見附錄 A）；這一發現對某些理論（如穩健的代理能力）的更新程度高於其他理論。
即使在穩健的代理能力下，評價性表徵也只是故事的一部分。
重要的是，我們發現這些表徵具有因果性的證據較弱。引導僅在原本就處於邊界的任務上將選擇機率移動了約 17%（第 5 節）。
偏好表徵比人們想像的更深層。
一個合理的先驗預期是，像「你討厭起司」這樣的系統提示會改變模型的行為，而不會改變其內部的評價。
相反，探針追蹤到了偏好的轉移。
人格間的表徵重用？
在一個人格上訓練的探針可以部分遷移到其他人格，這暗示了共享的評價性表徵（第 4.2 節）。
話雖如此，遷移是不均衡的。對於具有不同偏好特徵的虐待狂人格，效果要差得多。

開放性問題

為什麼引導效果較為適中？
顯性偏好的其他機制決定因素是什麼？
是否存在其他評價機制？或許是我們的線性方向或方法論無法輕易捕捉到的？
這些表徵與人格的相關程度如何？
相同的評價性表徵在多大程度上被跨人格重用？偏好是否位於人格的下游？
我們能否利用顯性偏好來描繪人格空間？
我們能否利用線性探針來研究一般意義上的跨人格表徵共享？
預訓練模型是否具有評價性表徵？（見附錄 B）
如果模型具有評價性表徵，這些表徵是否來自預訓練？後訓練是否顯著改變了它們？

附錄 A：哲學動機

福利基礎

區分了福利基礎（該系統是否為道德受體？）和福利利益（如果是，如何對待它才算好？）。這項工作關乎福利基礎。

進行實證 AI 福利研究的務實方法

我們不知道正確的道德受體理論。因此我們的方法是：選取幾個我們認為合理的理論，弄清楚在這些理論下系統需要具備哪些屬性，並運行實驗以減少我們對模型是否具備這些屬性的不確定性。

提出了通往道德受體地位的兩條潛在路徑：

穩健的代理能力：透過某些特定的認知狀態和過程追求目標的代理人是道德受體。欲望（Desires）或許是最必要的狀態：直觀上，如果有你想要或在意的事情，你的處境就會有好壞之分。
感知能力：如果一個生命體能夠產生具有正負價值的現象意識體驗（phenomenally conscious experiences），它就是有感知的。這些體驗包括痛苦和快樂，且感覺起來有好壞之分，這對感知生命體而言很重要，因此感知生命體是道德受體。

這兩條路徑都涉及評價性表徵。

評價性表徵如何介入

在許多哲學觀點中，欲望是驅動行為的評價性表徵，可能還具有某些進一步的功能屬性 ()。

同樣地，有價值的體驗通常被認為是評價性表徵。目前尚不清楚意識加上評價性內容是否足以構成有價值的體驗。我們的實驗透過顯性偏好（兩兩選擇）而非感受體驗來操作評價性表徵，因此我們探測到的評價性表徵可能無法完全對應到對感知能力至關重要的那種表徵。

附錄 B：預訓練模型中的評價性表徵

我們的框架中存在一種張力：

一方面，我們說評價性表徵對於穩健的代理能力是必要的，且這是它們最可能與福利相關的方式。
另一方面，即使在預訓練的 Gemma-3-27b 上訓練，探針在主題間的泛化效果也很好。儘管預訓練模型似乎不是穩健代理能力的合理候選者。

有兩種方法可以調和這一點。

選項 1：代理能力存在於模擬物（simulacra）中。在下，預訓練學習了人格的分佈。更廣泛地說，我們可能預期預訓練模型學習了「我當前扮演的角色所重視的東西」的上下文感知表徵。這種電路隨後可能在不同角色/人格之間循環使用。那麼穩健代理能力的候選者將是這些模擬物。

選項 2：預訓練模型學習了複雜但純粹描述性的特徵，這些特徵與評價高度相關，但尚未發揮正確的功能作用。舉個例子，你可以想像一個系統開發出追蹤「此行動會導致食物」的表徵。這會與評價高度相關，但它純粹是描述性的。預訓練模型中高度的跨主題泛化（第 2 節）可能歸因於類似的原因。也可能是這些複雜但描述性的特徵在後訓練期間被轉化為評價性表徵。

附錄 C：在 GPT-OSS-120B 上復現探針訓練流程

我們在 GPT-OSS-120B 上復現了效用擬合和探針訓練流程。相同的程序（透過主動學習進行 10,000 次兩兩比較、效用擬合、在最後標記激活值上進行脊回歸探針訓練）可以直接遷移。

探針表現

原始探針信號與 Gemma-3-27B 相當：在第 18 層達到最佳留出 r = 0.915（Gemma 在第 31 層為 0.864）。

安全主題：嘈雜的效用，可能並非泛化不良

安全相關主題的探針整體表現較差。

令人驚訝的是，安全主題在「留出」時的表現優於訓練時。如果問題在於泛化，這與我們的預期相反。解釋是：高拒絕率（有害請求約 35%，安全法律約 34%，模型操縱約 26%）可能干擾了瑟斯頓效用的估計，因此在訓練中包含這些主題會增加噪聲。

^() 兩兩準確度的上限約為 87%，因為瑟斯頓效用本身並不能完美擬合選擇數據。它們是模型偏好的嘈雜估計。
^() 單個部分（A vs B, B vs C）各自僅捕捉到一半的操縱，且天花板效應壓縮了信號：模型在中心化傳記下已經強烈偏好某些目標任務，留給「親興趣」提升的空間很小。
^() 僅在一個任務的標記上進行正向或負向引導也有一些因果效應，儘管更微弱。
^() 此基準 P(A) 是跨兩種提示順序彙總的。因此它也捕捉到了順序偏差佔主導地位的配對。即無論順序如何，模型總是選擇第一個任務。

Models Have Linear Representations of What Tasks They Like

總結