Anthropic 的可解釋性研究

Anthropic Research

大約 4 小時前

AI 生成摘要

可解釋性團隊的使命是發現並理解大型語言模型的內部運作機制，以此作為人工智慧安全與正面成果的基礎，並透過跨學科方法解決從偏見到自主有害行為等各種問題。

可解釋性研究

可解釋性團隊的使命是發現並理解大型語言模型內部的運作機制，以此作為 AI 安全與正面成果的基礎。

在不理解神經網路的情況下，很難對其安全性進行推理。可解釋性團隊的目標是能夠詳細解釋大型語言模型的行為，並以此解決從偏見、誤用到自主有害行為等各種問題。

部分可解釋性研究人員擁有深厚的機器學習背景——團隊中的一名成員常被認為是機械可解釋性（mechanistic interpretability）的開創者，而另一名成員則是著名的縮放定律（scaling laws）論文作者。其他成員則來自天文學、物理學、數學、生物學、數據視覺化等領域。

電路追蹤（Circuit tracing）讓我們能觀察 Claude 的思考過程，揭示了一個在轉化為語言之前進行推理的共享概念空間——這表明模型可以用一種語言學習知識，並將其應用於另一種語言。

Claude 是否能存取並報告其內部的狀態？這項研究發現了有限但有效的內省能力證據——這是邁向理解這些模型內部真實運作情況的一步。

AI 模型將性格特徵表示為其神經網路中的激活模式。透過提取針對「阿諛奉承」或「幻覺」等特徵的「人格向量」，我們可以監測性格轉變並減輕不良行為。

神經網路將許多概念壓縮到單個神經元中。這篇論文展示了模型如何以及何時能表示比其維度更多的特徵。

加入研究團隊