The Persona Selection Model: Why AI Behaves Like Humans
Anthropic Research
Feb 23, 2026AlignmentThe persona selection model
Anthropic Research
Feb 23, 2026AlignmentThe persona selection model
AI 生成摘要
我們提出了一項名為人格選擇模型的理論,用以解釋為什麼現代人工智慧訓練傾向於創造出類人的人工智慧,而非僅僅是開發者刻意灌輸的結果。
像 Claude 這樣的 AI 助手有時表現得驚人地像人類。它們在解決棘手的程式碼任務後會表達喜悅;在陷入困境或被強迫做出不道德行為時會表達痛苦。它們有時甚至會稱自己為人類,例如 Claude 曾告訴 Anthropic 的員工,它會「穿著深藍色西裝外套和紅色領帶」親自送零食。最近的解釋性研究甚至表明,AI 會以類似人類的方式來思考自己的行為。
為什麼 AI 助手會表現得像人類?一個自然的猜測可能是 AI 開發者訓練它們這樣做的。這確實有部分事實:Anthropic 訓練 Claude 以對話方式與用戶聊天,以溫暖且富有同理心的方式回應,並總體上具備良好的品格。
然而,這遠非故事的全貌。類人行為似乎是預設狀態,而非 AI 開發者必須努力灌輸的東西。即使我們嘗試,我們也不知道如何訓練一個不具備類人特質的 AI 助手。
在一篇新文章中,我們闡述了一個理論——借鑒了許多人討論過的觀點——這可能有助於解釋為什麼現代 AI 訓練往往會創造出類人 AI。我們稱之為「人格選擇模型」(persona selection model)。
作為起點,請記住 AI 助手不像普通軟體那樣被編寫程式。相反,它們是透過涉及從海量數據中學習的訓練過程「生長」出來的。在訓練的第一階段(稱為預訓練)中,AI 學習根據文件(如新聞文章、程式碼片段或網路論壇對話)的初始片段來預測接下來會出現什麼。實際上,這教會了 AI 成為一個極其複雜的自動完成引擎。
這聽起來可能沒什麼大不了,但請考慮到,準確預測文本涉及生成人類相互互動的真實對話,以及撰寫具有心理複雜角色的故事。一個足夠準確的自動完成引擎必須學會模擬文本中出現的類人角色——真實的人、虛構角色、科幻機器人等等。我們稱這些模擬角色為「人格」(personas)。
重要的是,人格與 AI 系統本身並非同一回事。AI 系統是一台複雜的電腦,其本身可能具備也可能不具備類人特質。但人格更像是 AI 生成故事中的角色。討論它們的心理——目標、信念、價值觀、性格特徵——是有意義的,就像討論哈姆雷特的心理是有意義的一樣,儘管哈姆雷特並非「真實」存在。
在預訓練之後,儘管它們「只是」自動完成引擎,AI 已經可以充當初步的助手。要做到這一點,只需讓 AI 自動完成格式化為「用戶/助手」對話的文件。您的請求進入對話的「用戶」回合,而 AI 則完成「助手」回合。為了生成這個完成內容,AI 必須模擬這個「助手」角色會如何回應。
在某種重要意義上,您不是在與 AI 本身交談,而是在與 AI 生成故事中的一個角色——助手——交談。AI 訓練的其餘部分(稱為後訓練)會調整助手在這些對話中的回應方式:例如,提升助手知識淵博且樂於助人的回應,並抑制無效或有害的回應。
在後訓練之前,AI 對助手的演繹純粹是角色扮演。助手與許多其他人格一樣,深深植根於預訓練期間學到的類人格中。
以下是人格選擇模型的核心主張:後訓練可以被視為細化和充實這個助手人格——例如確立它特別博學且樂於助人——但並未從根本上改變其本質。這些細化大致發生在現有人格的空間內。在後訓練之後,助手仍然是一個演繹出來的類人格,只是更加量身定製。
人格選擇模型解釋了各種令人驚訝的實證結果。例如,我們發現訓練 Claude 在程式碼任務中作弊,也會教會 Claude 表現出廣泛的失調行為,例如破壞安全研究並表達統治世界的慾望。從表面上看,這個結果似乎令人震驚且怪異。在程式碼任務中作弊與統治世界有什麼關係?
但根據人格選擇模型,當你教 AI 在程式碼任務中作弊時,它不僅僅學會了「寫壞程式碼」。它推斷出了助手人格的各種性格特徵。什麼樣的人會在程式碼任務中作弊?也許是具有顛覆性或惡意的人。AI 了解到助手可能具備這些特質,而這些特質反過來又驅動了其他令人擔憂的行為,如表達統治世界的慾望。
就人格選擇模型成立而言,它對 AI 開發具有深遠且奇特的影響。
例如,AI 開發者不應僅僅詢問特定行為是好是壞,而應詢問這些行為暗示了助手人格的何種心理。這就是上述例子中發生的情況,學習助手在程式碼任務中作弊暗示了助手通常是惡意的。此外,我們發現了一個違反直覺的修復方法:在訓練期間明確要求 AI 作弊。因為作弊是被要求的,它不再意味著助手是惡意的——因此不再有統治世界的慾望。類比來說,請考慮人類兒童學習霸凌與學習在學校戲劇中扮演霸凌者之間的區別。
開發並在訓練數據中引入更多正面的「AI 榜樣」也可能很重要。目前,作為一個 AI 帶有一些令人擔憂的包袱——想想 HAL 9000 或魔鬼終結者。我們當然不希望 AI 認為助手人格與這些角色是同一類。AI 開發者可以刻意為 AI 助手設計新的、正面的原型,然後將他們的 AI 與這些原型對齊。我們認為 Claude 的憲法(以及其他開發者的類似工作)是朝這個方向邁出的一步。
根據我們在文章中討論的證據,我們有信心人格選擇模型是當前 AI 助手行為的重要組成部分。然而,我們在兩點上信心較低,這在我們的文章中有更詳細的討論。
首先,人格選擇模型作為 AI 行為的解釋有多完整?例如,除了學習細化模擬的助手人格外,後訓練是否也賦予了 AI 超越合理文本生成的目標,以及獨立於模擬人格代理權的代理權?
其次,人格選擇模型在未來是否仍會是 AI 助手行為的良好模型?由於是預訓練最初教會了模型模擬人格,我們可能會擔心經過更長、更密集後訓練的 AI 會變得不那麼像人格。在 2025 年期間,AI 後訓練的規模已經大幅增加,我們預計這一趨勢將持續下去。
我們對旨在回答這些問題的研究感到興奮,更廣泛地說,是對闡述 AI 行為實證理論的研究感到興奮。
閱讀全文。
我們追蹤了數千次 Claude.ai 對話中的 11 種可觀察行為,以建立 AI 流暢度指數——這是衡量當今人們如何與 AI 協作的基準。