newsence
來源篩選

New ARENA material: 8 exercise sets on alignment science and interpretability

Lesswrong

I am announcing a significant update to the ARENA curriculum, featuring eight new exercise sets covering advanced topics like linear probes, attribution graphs, and emergent misalignment. These materials are now available on our new website to help researchers and students master the latest techniques in alignment science and model interpretability.

newsence

全新 ARENA 教材:8 套關於對齊科學與可解釋性的練習題庫

Lesswrong
1 天前

AI 生成摘要

我在此宣布我近期致力開發的大量全新 ARENA 教材正式上線,包含 8 套涵蓋線性探針、歸因圖與湧現失對齊等進階主題的練習題。這些內容目前已可在我們全新的網站上學習,旨在幫助研究人員與學生掌握對齊科學與模型可解釋性的最新技術。

TLDR

這是一篇宣布我最近一直在開發的大量新 ARENA 教材的貼文,現在可以在學習(目前在 alignment-science 分支,但計劃在本週日合併到主分支 main)。

針對以下主題有一系列練習題(每項包含約 1-2 天的教材內容):

  • 線性探針 (Linear Probes)(複製《真理的幾何學》論文,以及 Apollo 的「探測欺騙」研究)
  • 激活先知 (Activation Oracles)(基於,並增加了關於模型差異分析的練習)
  • 歸因圖 (Attribution graphs)(你可以從頭開始構建它們,包括所有圖剪枝的實現,並使用 circuit-tracer 函式庫)
  • 湧現的不對齊 (Emergent Misalignment)(主要基於 [&] (https://arxiv.org/abs/2506.11618) 的研究;這也涵蓋了許多「如何處理模型生物 (model organisms) 的基礎知識」,例如編寫自動評分器、使用 LoRA 微調等)
  • 不對齊科學 (Science of Misalignment)(兩個案例研究的導覽:Palisade 的「」與 GDM 的,以及
  • 推理模型可解釋性 (Reasoning Model Interpretability)(引導式複製 Thought Anchors 及其勒索擴展研究)
  • LLM 心理學與人格向量 (LLM Psychology & Persona Vectors)(複製「」論文,包括激活上限技術,並讓你創建一個提取流水線)
  • 調查員代理 (Investigator Agents)(基本上帶領你從頭開始構建迷你版 ,包括來自 Petri 2.0 的額外評估意識)

新教材

大部分教材將納入新的「對齊科學 (Alignment Science)」章節(此框架借鑒自 Anthropic 的;本章 3/5 的練習直接取自該部落格的內容)。

線性探針與激活先知都在可解釋性章節中(第 1.3 節:「探測與表示」)。我們將 SAE 章節一分為二:主要內容現在位於第 1.3 節,而基於電路的練習位於第 1.4 節:「電路 (Circuits)」(歸因圖練習也在此處)。其他 5 個內容則是新章節「第 4 章:對齊科學」中的獨立課程。

我們建議將 (1.1) 從頭開始構建 Transformer 作為所有這些課程的先修條件。對於其中一些課程,(1.2) 機械可解釋性入門也將是非常有用的基礎。除此之外沒有其他依賴關係,因此你可以直接跳入以下任何一個練習。這包括第 4 章:雖然它們是按照我們在 ARENA 中使用的順序排列的(且早期章節確實引入了在後期章節中擴展的想法),但本章內容之間沒有嚴格的依賴關係。

(1.3.1) 線性探針

在這些練習中,你將複製兩篇關鍵的探測論文:

  • (Marks, Tegmark):可視化 LLM 在處理真/假陳述時激活值中的清晰線性結構。
  • (Apollo Research):具有類似的訓練方法,但測試其在現實欺騙場景(如隱瞞內線交易)中的泛化能力。

之後,你將跟隨 探索一些額外的探測架構(例如注意力探針)。

(1.3.4) 激活先知 (Activation Oracles)

這些練習緊密基於隨激活先知部落格文章一起發布的。練習內容非常接近該演示筆記本功能的引導式導覽,並增加了兩項內容:

  • 我們載入了來自 Soligo & Turner 的湧現不對齊模型(見下文 4.1),並演示如何將先知用於模型差異分析 (model diffing)。
  • 我們有一個擴展練習,讓學生構建自己的 run_oracle 函數(即僅從基礎模型和 LoRA 適配器開始,他們將組裝自己的提示詞和掛鉤前向傳遞邏輯——這有助於建立對激活先知運作方式的齒輪級理解)。

(1.4.2) 歸因圖 (Attribution Graphs)

我們以前只有一套關於 SAE 的練習:內容非常長,所以我們現在將其拆分為 (1.3.3) 和 (1.4.2),前者涵蓋與單個 SAE 相關的所有內容及其使用方法,後者則涵蓋與 SAE 電路相關的所有內容:包括潛在空間到潛在空間的梯度、轉碼器 (transcoders) 以及後半部分的歸因圖。

首先,練習將帶領你完全從頭開始構建自己的歸因圖。換句話說,你將編寫函數來添加掛鉤並運行反向傳遞以恢復每個節點到節點的梯度,然後編寫代碼來剪枝圖並返回結果。這部分內容與 Neuronpedia 或 circuit-tracer 函式庫完全無關。

接下來,你將學習如何直接使用 circuit-tracer。這個函式庫在歸因圖之上引入了一個有用的抽象層:它更容易操作並運行特定的因果實驗(以及研究超節點和其他更高層級的圖結構)。

(4.1) 湧現的不對齊 (Emergent Misalignment)

這些練習主要圍繞 Soligo 和 Turner 的研究展開,該研究擴展了原始的湧現不對齊演示:訓練一系列較小的模型生物來展示湧現的不對齊,並以此作為在較小規模上研究它的手段。練習涵蓋了本章後續部分會反覆出現的幾個主題,例如:

  • 編寫自動評分器以及何時需要它們
  • 處理 LoRA 微調模型
  • 轉向 (Steering) 實驗及其可能出錯的方式
  • 分解激活空間的無監督方法

(4.2) 不對齊科學 (Science of Misalignment)

這些練習分為兩部分,詳細研究了兩個不同的案例:

  • :模型在完成任務清單前,會採取步驟防止自己被關閉。
  • :模型會根據它是否認為其回答會導致自己被修改,來假裝與特定目標對齊。

總體而言,這些練習作為不對齊科學核心思想的入門:如何構建引人注目的不對齊行為演示,以及如何嚴格測試環境特徵,以查看該行為是真正的不對齊,還是有更良性的解釋(例如模型只是非常笨)。

(4.3) 推理模型可解釋性 (Reasoning Model Interpretability)

這些練習大部分是圍繞 構建的。作者分析了模型解決數學問題的大量過程,並開發了一套推理區塊 (reasoning chunks) 的分類法,這有助於理解模型回答中關鍵的、具有反事實重要性的階段。你將複製他們的黑箱方法(涉及對區塊進行重採樣並觀察後續過程的變化),以及他們的白箱方法(分析注意力模式並進行因果干預以衡量結果)。最後一部分將此應用擴展到他們對勒索的研究,那裡也可以應用類似的分類法。

(4.4) LLM 心理學與人格向量 (LLM Psychology & Persona Vectors)

這些練習始於對 Anthropic 研究的複製,他們在激活空間中發現了一個方向,似乎解釋了助手型人格與更幻想型人格之間的大部分差異。你將在這個方向上進行轉向以誘導人格漂移,你還將實現激活上限 (activation capping),這是在助手軸方向上的一種相對複雜的干預,可以在不損害能力的情況下防止人格漂移。

在後半部分,我們從沿助手軸的全域干預轉向沿特定^() 的更精確干預。我們在這裡增加了更多功能:構建對比提示流水線、用於人格對齊和連貫性的自動評分器評分/過濾等。

(4.5) 調查員代理 (Investigator Agents)

這些練習始於對 Tim Hua 的 結果的引導式複製。這不僅本身有趣且與安全相關,還激發了調查員代理的想法,因為我們需要一個扮演「客戶」角色的紅隊 AI,以便在多輪對話中誘導出導致精神病的反應。接下來的部分將帶領你使用 inspect-ai 函式庫實現 Petri(或至少是輕量版),並展示如何使用它來獲得論文中得出的一些吹哨評估 (whistleblowing eval) 結果。最後,我們直接使用 Petri 並探索其最近一些更高級的功能,例如評估意識 (eval-awareness)。


網站新功能

我們創建了一個新網站來託管這些教材。這個網站基本上是 Streamlit 的替代品(我們將停用 Streamlit,儘管頁面仍可運作)。它具有 Streamlit 頁面的所有功能,外加:

  • 一個課程規劃頁面,讓你提交偏好並獲得每週和每日的學習內容細分,
  • 一個側邊欄,讓你選擇教材作為上下文,並直接向 LLM 提問(也在側邊欄中),或下載它以引導不同的 LLM(例如,如果你想基於其中一個主題開始一個項目,這可能是一個很好的開始方式)。

課程規劃器:讓你制定每週和每日的學習計劃
上下文選單:允許你下載教材供外部使用(即放入另一個 AI 的上下文中)或直接向 LLM 提問

注意——這個新網站並不意味著你學習這些教材的方式會有所不同。它仍然託管在同一個 ARENA_3.0 GitHub 倉庫中,練習文件的組織方式完全相同。這個網站直接從這些文件生成頁面(如果你感興趣,可以在查看網站的原始碼)。

物流安排

教材目前在 ARENA GitHub 倉庫的 alignment-science 分支中。你可以直接從那裡使用(只需確保在克隆倉庫後在該分支上工作)。它將於 3 月 1 日星期日合併到主分支 main。

注意——所有關於如何學習教材的信息也可以在網站的上找到。

至於未來計劃的教材:我個人短期內不會開發任何新內容。我非常希望增加關於模型生物的內容(即訓練你自己的模型——這些可能圍繞 Anthropic 開源的 RM 諂媚模型構建),如果有人有興趣製作關於這個主題的教材,我很想聽聽你的想法!你可以通過 Slack 聯繫我(使用本文末尾的邀請鏈接)。

在「氛圍代碼 (vibe-code)」的世界裡,為什麼還要用這個?

在之前版本的 ARENA 中,我們建議人們在沒有 GitHub Copilot 協助的情況下完成練習,因為例如注意力計算中涉及的確切矩陣乘法對於獲得齒輪級的理解非常重要。雖然其中一些觀點仍然成立,但自原始版本 ARENA 發布以來,許多範式已經發生了變化,這就是為什麼我通常傾向於建議更多人使用 LLM 來幫助他們更快地完成這些教材,只在某些練習看起來值得時才親自挑選並完成。

考慮到這一點,以下是我希望這些教材能帶給你,而「Claude Code + 論文」組合無法提供的一些關鍵點:

  • 可靠性。每個筆記本都經過測試和驗證,因此你無需浪費時間在損壞的導入、舊版函式庫或不再受支持的模型端點實驗上反覆嘗試。
  • 教學價值。練習的結構旨在引導你了解特定主題:Markdown 單元格解釋了我們在每個點上做什麼,函數文檔清晰,測試則明確了我們對這些函數的預期行為。目的不僅是給你一堆內容和代碼,而是以最有效地融入你現有知識圖譜的方式來構建它。
  • 背景脈絡。每套練習都在該領域其餘部分的背景下解釋該主題:不僅是我們在做什麼,還有我們為什麼這樣做,以及它如何融入該領域更廣泛的框架。我們在章節內的其他練習以及該領域的其他論文之間建立了聯繫。
  • 懷疑精神。我們不僅帶領你學習教材,還增加了練習,引導你注意這類工作可能失敗的某些方式。AI 代理非常擅長快速編寫出不錯的初步代碼並為其編寫評估,但進一步的迭代存在獎勵黑客行為的風險(即修改評估以使其通過)。例如,一個練習(4.1 湧現的不對齊)給你一個失敗的轉向實驗,並提示你尋找機械論解釋來說明哪裡出錯了以及為什麼——這正是本教材旨在培養的理解力。

反饋

如果您對這些教材(或本次發布的任何部分)有任何反饋,我將不勝感激,請在我們的 Slack 小組中提出。邀請鏈接在(如果鏈接失效,請私訊我,我可以更換!)。


  • 助手軸論文是在人格向量論文之後發表的;我們按這個順序排列的主要原因是關於特定人格向量的練習有更多活動部件,並且直接建立在你於助手軸教材中構建的內容之上。