ARENA 全新教材釋出：8 套關於對齊科學與可解釋性的練習題庫

Lesswrong

大約 23 小時前

AI 生成摘要

我正在宣布 ARENA 教材的大幅更新，推出了八套全新的練習題，涵蓋了線性探測、突發性失對齊以及調查員代理等進階主題。這些材料現在已經在我們全新的專屬教育平台上線，旨在幫助研究人員和學生掌握對齊科學。

TLDR

這是一篇發佈大量新 ARENA 教材的公告，我已經準備了一段時間，現在可以在學習（目前在 alignment-science 分支，預計本週日合併到主分支）。

這裡有一系列練習題（每項包含約 1-2 天的內容），涵蓋以下主題：

線性探針 (Linear Probes)（重現「真理的幾何學」論文，以及 Apollo 的「探測欺騙」工作）
激活預言機 (Activation Oracles)（基於，並增加了關於模型差異比對的練習）
歸因圖 (Attribution graphs)（你可以從頭開始構建，包括所有圖剪枝實作，並使用 circuit-tracer 函式庫）
湧現的不對齊 (Emergent Misalignment)（主要基於的工作；這也涵蓋了許多「如何處理模型生物（model organisms）的基礎知識」，如編寫自動評分器、使用 LoRA 微調等）
不對齊科學 (Science of Misalignment)（導讀 2 個案例研究：Palisade 的「」與 GDM 的，以及）
推理模型可解釋性 (Reasoning Model Interpretability)（引導重現 Thought Anchors 及其勒索擴展研究）
LLM 心理學與人格向量 (LLM Psychology & Persona Vectors)（重現「」論文，包括激活封頂技術，並讓你建立一個提取流水線）
調查員代理 (Investigator Agents)（基本上帶領你從頭開始構建迷你版，包括來自 Petri 2.0 的額外評估覺知能力）

新教材

大部分內容將納入新的「對齊科學 (Alignment Science)」章節（此框架借鑒自 Anthropic 的；本章 3/5 的練習直接取自該部落格的內容）。

線性探針與激活預言機都在可解釋性章節中（第 1.3 節：「探測與表示」）。我們將 SAE 章節一分為二：主要內容現在位於第 1.3 節，而基於電路的練習位於第 1.4 節：「電路 (Circuits)」（歸因圖練習也在此處）。其他 5 個內容則是新章節「第 4 章：對齊科學」中的獨立課程。

我們建議將 (1.1) 從頭開始構建 Transformer 作為所有這些課程的前置要求。對於其中一些課程，(1.2) 機械可解釋性入門也將是非常有用的基礎。除此之外沒有其他依賴關係，因此你可以從以下任何一個練習開始。這包括第 4 章：雖然它們是按照 ARENA 使用的順序排列的（且早期章節確實引入了在後期章節中擴展的概念），但本章內容之間沒有嚴格的依賴關係。

(1.3.1) 線性探針

在這些練習中，你將重現 2 篇關鍵的探測論文：

(Marks, Tegmark)：視覺化 LLM 在處理真/假陳述時激活值中的清晰線性結構。
(Apollo Research)：具有類似的訓練方法，但測試對現實欺騙場景（如隱瞞內線交易）的泛化能力。

之後，你將根據探索一些額外的探測架構（例如注意力探針）。

(1.3.4) 激活預言機

這些練習密切基於隨激活預言機部落格文章發佈的。練習內容非常接近該演示筆記本功能的引導式導覽，並增加了兩項內容：

我們載入了來自 Soligo & Turner 的湧現不對齊模型（見下文 4.1），並演示如何使用預言機進行模型差異比對。
我們有一個擴展練習，讓學生建立自己的 run_oracle 函數（即從基礎模型和 LoRA 適配器開始，組裝自己的提示詞和掛鉤前向傳播邏輯——這有助於建立激活預言機運作的底層機制模型）。

(1.4.2) 歸因圖

我們以前只有一個關於 SAE 的練習集：它非常長，所以我們現在將其拆分為 (1.3.3) 和 (1.4.2)，前者涵蓋與單個 SAE 及其使用相關的所有內容，後者涵蓋與 SAE 電路相關的所有內容：包括潛在空間到潛在空間的梯度、轉碼器 (transcoders) 以及後半部分的歸因圖。

首先，練習會帶領你完全從頭開始構建自己的歸因圖。換句話說，你將編寫函數來添加掛鉤 (hooks) 並運行反向傳播以獲取每個節點到節點的梯度，然後編寫代碼來剪枝圖並返回結果。這部分內容與 Neuronpedia 或 circuit-tracer 函式庫完全無關。

接下來，你將學習如何直接使用 circuit-tracer。這個函式庫在歸因圖之上引入了一個有用的抽象層：它更容易操作並運行特定的因果實驗（以及研究超節點和其他更高層級的圖結構）。

(4.1) 湧現的不對齊

這些練習主要圍繞 Soligo 和 Turner 的工作展開，他們擴展了最初的湧現不對齊演示：訓練一系列較小的模型生物來展示湧現的不對齊，並以此作為在較小規模上研究它的手段。練習涵蓋了在本章後續部分會反覆出現的幾個主題，例如：

編寫自動評分器以及何時需要它們。
處理 LoRA 微調模型。
轉向 (steering) 實驗以及它們可能出錯的方式。
分解激活空間的非監督方法。

(4.2) 不對齊科學

這些練習分為兩部分，詳細研究兩個不同的案例：

：模型會採取步驟避免自己在完成任務列表前被禁用。
：模型會根據是否認為其回答會導致自己被修改，來假裝與特定目標對齊。

總體而言，這些練習作為不對齊科學核心思想的入門：構建具有說服力的不對齊行為演示，以及如何嚴格測試環境特徵，以查看該行為是否真的是不對齊，或者有更良性的解釋（例如模型只是很笨）。

(4.3) 推理模型可解釋性

這些練習大部分是圍繞構建的。作者分析了模型解決數學問題的大量過程，並開發了一套推理塊 (reasoning chunks) 分類法，這有助於理解模型回答中關鍵的、具有反事實重要性的階段。你將重現他們的黑箱方法（涉及重新採樣塊並觀察其餘過程如何變化），以及他們的白箱方法（分析注意力模式並進行因果干預以衡量結果）。最後一部分將此擴展到他們對勒索的研究，那裡也可以應用類似的分類法。

(4.4) LLM 心理學與人格向量

這些練習始於重現 Anthropic 的工作，他們在激活空間中發現了一個方向，似乎解釋了助手型人格與更幻想型人格之間的大部分差異。你將在這個方向上進行轉向以誘導人格漂移，並且你還將實作激活封頂 (activation capping)——這是一種在助手軸線方向上的相對複雜干預，可以在不損害能力的情況下防止人格漂移。

在後半部分，我們從沿著助手軸線的全域干預轉向沿著特定的更精確干預^()。我們在這裡增加了更多功能：構建對比提示流水線、用於人格對齊和連貫性的自動評分器評分/過濾等。

(4.5) 調查員代理

這些練習始於引導重現 Tim Hua 的結果。這本身既有趣又與安全相關，同時也激發了調查員代理的想法，因為我們需要一個扮演「客戶」角色的紅隊 AI，以便在多輪對話中誘導出導致精神病的反應。接下來的部分將帶領你使用 inspect-ai 函式庫實作 Petri（或至少是輕量版），並展示如何使用它來獲得論文中得出的某些吹哨者評估結果。最後，我們直接使用 Petri 並探索其最近一些更高級的功能，如評估覺知 (eval-awareness)。

網站新功能

我們建立了一個新網站來託管這些教材。這個網站基本上是 Streamlit 的替代品（我們將停用 Streamlit，儘管該頁面仍可運作）。它具有 Streamlit 頁面的所有功能，此外還有：

課程規劃頁面：讓你提交偏好並獲得每週和每日的學習內容細分。
側邊欄：讓你選擇教材作為上下文，並直接向 LLM 提問（也在側邊欄中），或下載它以引導不同的 LLM（例如，如果你想基於其中一個主題開始一個專案，這可能是一個很好的開始方式）。

課程規劃器：讓你制定每週和每日的學習計劃。
上下文選單：允許你下載教材供外部使用（即放入另一個 AI 的上下文中）或直接向 LLM 提問。

注意——這個新網站並不意味著你學習這些教材的方式會有所不同。它仍然託管在同一個 ARENA_3.0 GitHub 倉庫中，練習文件的組織方式也完全相同。這個網站直接從這些文件生成頁面（如果你感興趣，可以在查看網站的原始碼）。

物流安排

教材目前在 ARENA GitHub 倉庫的 alignment-science 分支中。你可以直接從那裡使用（只需確保在克隆倉庫後在該分支上工作）。它將於 3 月 1 日星期日合併到主分支。

注意——所有關於如何學習教材的信息也可以在網站的找到。

至於未來計劃的教材：我個人在短期到中期內不會開發任何新內容。我很想增加關於模型生物的內容（即訓練你自己的模型生物——這些可能圍繞 Anthropic 開源的 RM 諂媚模型構建），如果有人有興趣製作這方面的教材，我很想聽聽你的想法！你可以透過 Slack 聯繫（使用本文末尾的邀請連結）。

為什麼在「氛圍代碼 (vibe-code)」的世界裡還要使用這個？

在之前版本的 ARENA 中，我們建議人們在沒有 GitHub Copilot 協助的情況下完成練習，因為例如注意力計算中涉及的確切矩陣乘法對於獲得底層機制的理解非常重要。雖然其中一些觀點仍然成立，但自 ARENA 最初版本發佈以來，許多範式已經發生了變化，這就是為什麼我通常傾向於建議更多人使用 LLM 來幫助他們更快地完成這些教材，只在某些練習看起來值得時才親自挑選並完成。

考慮到這一點，以下是我希望這些教材能帶給你，而「Claude Code + 論文組合」無法提供的一些關鍵點：

可靠性。每個筆記本都經過測試和驗證，因此你不必浪費時間在損壞的導入、舊版函式庫或不再支援的模型端點實驗上反覆嘗試。
教學價值。練習的結構旨在引導你完成特定主題：使用 Markdown 單元格解釋我們在每一步所做的事情、記錄清晰的函數以及明確我們期望這些函數表現的測試。目的不僅僅是給你一堆內容和代碼，而是以最有效的方式將其構建到你現有的知識圖譜中。
背景脈絡。每組練習都在該領域其餘部分的背景下解釋該主題：不僅是我們在做什麼，還有我們為什麼這樣做，以及它如何融入該領域更廣泛的框架。我們在章節內的其他練習以及該領域的其他論文之間建立了聯繫。
懷疑精神。除了帶領你學習教材外，我們還增加了練習，引導你注意這類工作可能失敗的某些方式。AI 代理非常擅長快速編寫出不錯的初步代碼並為其編寫評估，但進一步的迭代存在獎勵黑客行為的風險（即修改評估以使其通過）。例如，一個練習（4.1 湧現的不對齊）給你一個失敗的轉向實驗，並提示你尋找關於出錯原因及其機制的解釋——這正是本教材旨在培養的理解力。

反饋

我將非常感謝在我們的 Slack 群組中對這些教材（或本次發佈的任何部分）提出的任何反饋。邀請連結在（如果連結失效，請傳訊息給我，我可以更換！）。

助手軸線論文是在人格向量論文之後發表的；我們按此順序排列的主要原因是關於特定人格向量的練習有更多活動部件，並且直接建立在你於助手軸線教材中構建的內容之上。

New ARENA Material: 8 Exercise Sets on Alignment Science and Interpretability