社會影響研究
社會影響
「社會影響」(Societal Impacts)是一個與 Anthropic 政策和保障團隊密切合作的技術研究團隊,旨在探索 AI 在現實世界中是如何被使用的。
社會技術對齊
AI 模型應該持有哪些人類價值觀?在面對衝突或模糊的價值觀時,它們應如何運作?AI 在現實中是如何被使用(及誤用)的?我們該如何預測 AI 未來的用途與風險?社會影響研究人員透過開發實驗、訓練方法和評估工具來回答這些問題。
政策相關性
儘管社會影響團隊屬於技術性質,但他們經常選擇具有政策相關性的研究課題。他們相信,針對政策制定者關心的議題提供值得信賴的研究,將為每個人帶來更好的政策(及整體)結果。
AI 如何改變 Anthropic 的工作方式
我們調查了 Anthropic 的工程師和研究人員,進行了深入的定性訪談,並研究了內部的 Claude Code 使用數據,以了解 AI 的使用如何改變我們的工作方式。我們發現,AI 的使用正從根本上改變軟體開發者的工作性質。
介紹 Anthropic Interviewer:1,250 位專業人士對與 AI 協作的看法
我們開發了一款名為 Anthropic Interviewer 的訪談工具。在 Claude 的驅動下,Anthropic Interviewer 能以史無前例的規模自動執行詳細的訪談。
現實中的價值觀:發現並分析現實世界語言模型互動中的價值觀
Claude 在實際對話中究竟表達了哪些價值觀?這篇論文分析了 70 萬次互動,建立了首個大規模的 AI 價值觀實證分類法,並發現 Claude 會根據語境調整其表達的價值觀——在大多數情況下會反映使用者的立場,但在涉及核心原則時則會堅持立場。
集體憲法 AI:將語言模型與公眾意見對齊
Anthropic 與集體智慧專案(Collective Intelligence Project)合作,邀請約 1,000 名美國人參與公眾流程,共同起草一份 AI 系統憲法,並據此訓練了一個模型。
大型生成模型中的可預測性與驚喜
大型模型透過縮放定律(scaling laws)具有可預測的損失,但其能力卻難以預測。這種矛盾對政策制定具有重大影響。
出版物
加入研究團隊