newsence
來源篩選

Interpretability Research at Anthropic

Anthropic Research

The Interpretability team aims to understand the internal workings of large language models to ensure AI safety and address issues like bias and harmful behavior through a multidisciplinary approach.

newsence

Anthropic 的可解釋性研究

Anthropic Research
大約 4 小時前

AI 生成摘要

可解釋性團隊的使命是發現並理解大型語言模型的內部運作機制,以此作為人工智慧安全與正面成果的基礎,並透過跨學科方法解決從偏見到自主有害行為等各種問題。

可解釋性研究

可解釋性

可解釋性團隊的使命是發現並理解大型語言模型內部的運作機制,以此作為 AI 安全與正面成果的基礎。

影片縮圖

透過理解實現安全

在不理解神經網路的情況下,很難對其安全性進行推理。可解釋性團隊的目標是能夠詳細解釋大型語言模型的行為,並以此解決從偏見、誤用到自主有害行為等各種問題。

多學科方法

部分可解釋性研究人員擁有深厚的機器學習背景——團隊中的一名成員常被認為是機械可解釋性(mechanistic interpretability)的開創者,而另一名成員則是著名的縮放定律(scaling laws)論文作者。其他成員則來自天文學、物理學、數學、生物學、數據視覺化等領域。

影片縮圖

追蹤大型語言模型的思考軌跡

電路追蹤(Circuit tracing)讓我們能觀察 Claude 的思考過程,揭示了一個在轉化為語言之前進行推理的共享概念空間——這表明模型可以用一種語言學習知識,並將其應用於另一種語言。

大型語言模型中的內省跡象

Claude 是否能存取並報告其內部的狀態?這項研究發現了有限但有效的內省能力證據——這是邁向理解這些模型內部真實運作情況的一步。

人格向量:監測與控制語言模型中的性格特徵

AI 模型將性格特徵表示為其神經網路中的激活模式。透過提取針對「阿諛奉承」或「幻覺」等特徵的「人格向量」,我們可以監測性格轉變並減輕不良行為。

疊加的玩具模型 (Toy Models of Superposition)

神經網路將許多概念壓縮到單個神經元中。這篇論文展示了模型如何以及何時能表示比其維度更多的特徵。

出版物

加入研究團隊