Interpretability Research at Anthropic Anthropic Research
2026-02-28T13:40:19.810Z The Interpretability team aims to understand the internal workings of large language models to ensure AI safety and address issues like bias and harmful behavior through a multidisciplinary approach.
Anthropic 的可解釋性研究 Anthropic Research
大約 4 小時前
AI 生成摘要
可解釋性團隊的使命是發現並理解大型語言模型的內部運作機制,以此作為人工智慧安全與正面成果的基礎,並透過跨學科方法解決從偏見到自主有害行為等各種問題。
可解釋性研究
可解釋性
可解釋性團隊的使命是發現並理解大型語言模型內部的運作機制,以此作為 AI 安全與正面成果的基礎。
透過理解實現安全
在不理解神經網路的情況下,很難對其安全性進行推理。可解釋性團隊的目標是能夠詳細解釋大型語言模型的行為,並以此解決從偏見、誤用到自主有害行為等各種問題。
多學科方法
部分可解釋性研究人員擁有深厚的機器學習背景——團隊中的一名成員常被認為是機械可解釋性(mechanistic interpretability)的開創者,而另一名成員則是著名的縮放定律(scaling laws)論文作者。其他成員則來自天文學、物理學、數學、生物學、數據視覺化等領域。
追蹤大型語言模型的思考軌跡
電路追蹤(Circuit tracing)讓我們能觀察 Claude 的思考過程,揭示了一個在轉化為語言之前進行推理的共享概念空間——這表明模型可以用一種語言學習知識,並將其應用於另一種語言。
大型語言模型中的內省跡象
Claude 是否能存取並報告其內部的狀態?這項研究發現了有限但有效的內省能力證據——這是邁向理解這些模型內部真實運作情況的一步。
人格向量:監測與控制語言模型中的性格特徵
AI 模型將性格特徵表示為其神經網路中的激活模式。透過提取針對「阿諛奉承」或「幻覺」等特徵的「人格向量」,我們可以監測性格轉變並減輕不良行為。
疊加的玩具模型 (Toy Models of Superposition)
神經網路將許多概念壓縮到單個神經元中。這篇論文展示了模型如何以及何時能表示比其維度更多的特徵。
出版物
加入研究團隊