Anthropic 社會影響研究：探索 AI 在現實世界的應用與對齊

Anthropic Research

大約 4 小時前

AI 生成摘要

Anthropic 的社會影響團隊針對 AI 模型如何對齊人類價值觀，以及對現實政策與勞動市場的影響進行技術研究，並利用 Claude 等工具分析大規模互動與公眾意見。

社會影響研究

「社會影響」（Societal Impacts）是一個與 Anthropic 政策和保障團隊密切合作的技術研究團隊，旨在探索 AI 在現實世界中是如何被使用的。

AI 模型應該持有哪些人類價值觀？在面對衝突或模糊的價值觀時，它們應如何運作？AI 在現實中是如何被使用（及誤用）的？我們該如何預測 AI 未來的用途與風險？社會影響研究人員透過開發實驗、訓練方法和評估工具來回答這些問題。

儘管社會影響團隊屬於技術性質，但他們經常選擇具有政策相關性的研究課題。他們相信，針對政策制定者關心的議題提供值得信賴的研究，將為每個人帶來更好的政策（及整體）結果。

我們調查了 Anthropic 的工程師和研究人員，進行了深入的定性訪談，並研究了內部的 Claude Code 使用數據，以了解 AI 的使用如何改變我們的工作方式。我們發現，AI 的使用正從根本上改變軟體開發者的工作性質。

我們開發了一款名為 Anthropic Interviewer 的訪談工具。在 Claude 的驅動下，Anthropic Interviewer 能以史無前例的規模自動執行詳細的訪談。

Claude 在實際對話中究竟表達了哪些價值觀？這篇論文分析了 70 萬次互動，建立了首個大規模的 AI 價值觀實證分類法，並發現 Claude 會根據語境調整其表達的價值觀——在大多數情況下會反映使用者的立場，但在涉及核心原則時則會堅持立場。

Anthropic 與集體智慧專案（Collective Intelligence Project）合作，邀請約 1,000 名美國人參與公眾流程，共同起草一份 AI 系統憲法，並據此訓練了一個模型。

大型模型透過縮放定律（scaling laws）具有可預測的損失，但其能力卻難以預測。這種矛盾對政策制定具有重大影響。

加入研究團隊