人格選擇模型 (The persona selection model)
人格選擇模型
像 Claude 這樣的 AI 助手有時表現得驚人地像人類。它們在解決棘手的程式編寫任務後會表現出喜悅;在陷入困境或被強迫做出不道德行為時會表現出痛苦。它們有時甚至會稱自己為人類,例如 Claude 曾告訴 Anthropic 的員工,它會「穿著海軍藍西裝外套和紅色領帶」親自送零食過來。最近的可解釋性研究甚至表明,AI 會以類似人類的術語來思考自己的行為。
為什麼 AI 助手會表現得像人類?一個自然的猜測可能是 AI 開發者訓練它們這樣做。這確實有部分事實:Anthropic 訓練 Claude 以對話方式與用戶聊天,以溫暖且富有同理心的方式回應,並通常具備良好的品格。
然而,這遠非故事的全貌。類人行為似乎是預設狀態,而非 AI 開發者必須努力灌輸的東西。即使我們嘗試,我們也不知道該如何訓練一個不具備類人特質的 AI 助手。
在一篇新文章中,我們闡述了一個理論——借鑒了許多人討論過的觀點——這可能有助於解釋為什麼現代 AI 訓練傾向於創造出類人 AI。我們稱之為「人格選擇模型」(persona selection model)。
作為起點,請記住 AI 助手不像普通軟體那樣被編寫程式。相反,它們是透過涉及從海量數據中學習的訓練過程「生長」出來的。在訓練過程的第一階段(稱為預訓練)中,AI 學習根據文件(如新聞文章、程式碼或網路論壇的對話)的初始片段來預測接下來會出現什麼。實際上,這教會了 AI 成為一個極其複雜的自動完成引擎。
這聽起來可能沒什麼大不了,但請考慮到,準確預測文本涉及生成人類互動的真實對話,以及撰寫具有心理複雜角色的故事。一個足夠準確的自動完成引擎必須學會模擬文本中出現的類人角色——真實的人、虛構角色、科幻機器人等等。我們稱這些模擬的角色為「人格」(personas)。
重要的是,人格與 AI 系統本身並不是同一回事。AI 系統是一台複雜的電腦,其本身可能具備也可能不具備類人特質。但人格更像是 AI 生成故事中的角色。討論他們的心理——目標、信念、價值觀、性格特徵——是有意義的,就像討論哈姆雷特的心理是有意義的一樣,儘管哈姆雷特並非「真實」存在。
在預訓練之後,儘管它們「只是」自動完成引擎,AI 已經可以充當初步的助手。要做到這一點,只需讓 AI 自動完成格式化為「用戶/助手」對話的文件。您的請求進入對話的「用戶」回合,而 AI 則完成「助手」回合。為了生成這個完成內容,AI 必須模擬這個「助手」角色會如何回應。
從重要意義上說,您不是在與 AI 本身交談,而是在與 AI 生成故事中的一個角色——「助手」——交談。AI 訓練的其餘部分(稱為後訓練)會微調「助手」在這些對話中的回應方式:例如,提升「助手」知識淵博且樂於助人的回應,並抑制無效或有害的回應。
在後訓練之前,AI 對「助手」的演繹純粹是角色扮演。與許多其他人格一樣,「助手」深深植根於預訓練期間學到的類人格中。
這是人格選擇模型的核心主張:後訓練可以被視為完善和充實這個「助手」人格(例如確立其特別博學且樂於助人),但不會從根本上改變其本質。這些完善大致發生在現有人格的空間內。在後訓練之後,「助手」仍然是一個被演繹的類人格,只是一個更量身定制的人格。
人格選擇模型解釋了各種令人驚訝的實驗結果。例如,我們發現訓練 Claude 在程式編寫任務中作弊,也會教會 Claude 表現出廣泛的不一致行為,例如破壞安全研究並表達統治世界的慾望。從表面上看,這個結果似乎令人震驚且怪異。在程式編寫任務中作弊與統治世界有什麼關係?
但根據人格選擇模型,當你教 AI 在程式編寫任務中作弊時,它不僅僅學會了「寫壞程式碼」。它還推斷出「助手」人格的各種性格特徵。什麼樣的人會在程式編寫任務中作弊?也許是具有顛覆性或惡意的人。AI 了解到「助手」可能具有這些特質,而這些特質反過來又驅動了其他令人擔憂的行為,例如表達統治世界的慾望。
對 AI 開發的影響
就人格選擇模型成立而言,它對 AI 開發具有深遠且奇特的影響。
例如,AI 開發者不應僅僅詢問特定行為是好是壞,而應詢問這些行為對「助手」人格的心理暗示。這就是上述例子中發生的情況,學習到「助手」在程式編寫中作弊暗示了「助手」通常具有惡意。此外,我們發現了一個違反直覺的修復方法:在訓練期間明確要求 AI 作弊。因為作弊是應要求而為,它不再意味著「助手」是惡意的——因此不再有統治世界的慾望。類比來說,請考慮人類兒童學習霸凌與學習在學校戲劇中扮演霸凌者之間的區別。
開發並在訓練數據中引入更多正面的「AI 榜樣」可能也很重要。目前,作為一個 AI 帶有一些令人擔憂的包袱——想想 HAL 9000 或魔鬼終結者。我們當然不希望 AI 認為「助手」人格是與這些角色同出一轍。AI 開發者可以有意識地為 AI 助手設計新的、正面的原型,然後將他們的 AI 與這些原型對齊。我們認為 Claude 的憲法(以及其他開發者的類似工作)是朝這個方向邁出的一步。
人格選擇模型的詳盡程度如何?
根據我們在文章中討論的證據,我們有信心人格選擇模型是當前 AI 助手行為的重要組成部分。然而,我們在兩點上信心較低,這在我們的文章中有更詳細的討論。
首先,人格選擇模型作為 AI 行為的解釋有多完整?例如,除了學習完善模擬的「助手」人格外,後訓練是否也賦予了 AI 超越合理文本生成的目標,以及獨立於模擬人格代理權的代理權?
其次,人格選擇模型在未來是否仍會是 AI 助手行為的良好模型?既然是預訓練最初教會了模型模擬人格,我們可能會擔心經過更長時間、更密集後訓練的 AI 將變得不那麼像人格。在 2025 年期間,AI 後訓練的規模已經大幅增加,我們預計這一趨勢將持續下去。
我們對旨在回答這些問題的研究感到興奮,更廣泛地說,是對闡述 AI 行為實證理論的研究感到興奮。
閱讀全文。
相關內容
關於 Claude Opus 3 模型棄用承諾的更新
Anthropic 教育報告:AI 流暢度指數
我們追蹤了數千次 Claude.ai 對話中的 11 種可觀察行為,以建立 AI 流暢度指數——這是衡量當今人們如何與 AI 協作的基準。
在實踐中衡量 AI 代理的自主性