The Persona Selection Model: Understanding AI Assistants as Simulated Characters
Lesswrong
The persona selection model (PSM) posits that LLMs learn to simulate diverse characters during pre-training, with post-training eliciting a specific Assistant persona that users interact with like a character in a story. This model suggests that understanding AI behavior requires analyzing the traits of this simulated persona and has significant implications for AI development and alignment.
人格選擇模型:將 AI 助手理解為模擬角色
Lesswrong
5 天前
AI 生成摘要
人格選擇模型(PSM)主張大型語言模型在預訓練期間學習模擬多樣的角色,並透過訓練後微調引出一個特定的「助手」人格,讓使用者與其互動時就像在與故事中的角色對話。這個模型認為理解 AI 行為需要分析此模擬人格的特質,並對 AI 的開發與對齊具有重大影響。
TL;DR(摘要)
我們描述了人格選擇模型(Persona Selection Model, PSM):其核心觀點是大型語言模型(LLM)在預訓練期間學會了模擬多樣化的角色,而後訓練(post-training)則引導並精煉出一個特定的「助手」(Assistant)人格。因此,與 AI 助手的互動可以被理解為與該「助手」人格的互動——這大致類似於 LLM 生成的故事中的一個角色。我們調查了支持 PSM 的經驗行為、泛化能力以及基於可解釋性的證據。PSM 對 AI 開發具有重要意義,例如建議對 AI 心理進行擬人化推理,以及在訓練數據中引入正面的 AI 原型。一個重要的開放性問題是 PSM 的解釋力有多全面,特別是是否存在「助手」人格之外的代理權(agency)來源,以及這在未來會如何演變。
引言
現代 AI 助手究竟是什麼樣的存在?一種觀點認為它們是淺薄、僵化的系統,只是狹隘地將用戶輸入與訓練數據進行模式匹配。另一種觀點將 AI 系統視為外星生物,具有學得的目標、行為和思維模式,而這些對我們來說在根本上是不可理解的。第三種選擇則是將 AI 擬人化,將其視為類似數位人類的存在。為 AI 系統建立良好的心理模型對於預測和控制其行為至關重要。如果我們的目標是打造有用且符合人類價值的 AI 助手,那麼當我們面對的是僵化的電腦程式、外星生物還是數位人類時,所採取的應對方法將大相徑庭。
在這些觀點中,第三種——即 AI 系統像數位人類——可能看起來最不直觀。畢竟,現代大型語言模型(LLM)的神經架構與人類大腦截然不同,且 LLM 的訓練過程與生物進化或人類學習也完全不同。儘管如此,根據我們的經驗,像 Claude 這樣的 AI 助手在表現上驚人地像人。例如,儘管沒有經過明確的訓練,它們經常表現出情緒——比如在處理困難任務時表現出挫折感。而且,正如我們將討論的,我們在它們如何從訓練數據中泛化以及如何內部表徵自身行為方面,觀察到了更深層次的類人性。
在這篇文章中,我們分享了一個我們認為對理解 AI 助手並預測其行為非常有用的心理模型。在這個模型下,LLM 最好被視為能夠模擬大量角色劇目的演員或作者,而用戶與之互動的 AI 助手就是其中一個角色。更詳細地說,這個我們稱為**人格選擇模型(PSM)**的模型指出:
在預訓練期間,LLM 學會成為預測模型,能夠根據訓練數據中出現的實體(真實人類、虛構角色、真實與虛構的 AI 系統等)模擬多樣化的人格(personas)。
後訓練則精煉了 LLM 對某個特定人格的模型,我們稱之為「助手」。當用戶與 AI 助手互動時,他們主要是在與這個「助手」人格互動。
最終 AI 助手的行為在很大程度上可以透過「助手」人格的特質來理解。這個大方向的想法並非我們首創。我們這篇文章的目標是明確闡述並命名這個想法,討論支持它的經驗證據,並反思它對 AI 開發的影響。
總體而言,我們不確定 PSM 對 AI 助手行為的解釋有多完整。儘管如此,我們發現它是過去幾年來一個非常有用的心理模型。我們對進一步精煉 PSM、理解其全面性以及研究它如何取決於模型規模和訓練的工作感到興奮。更廣泛地說,我們對制定和驗證經驗理論的工作感到興奮,這些理論能讓我們預測當前和未來 AI 系統的對齊屬性。
人格選擇模型
在本節中,我們首先回顧現代 AI 助手是如何透過使用 LLM 在「用戶/助手」對話中生成「助手」輪次的補全內容來構建的。接著我們闡述人格選擇模型(PSM),該模型大致認為 LLM 可以被視為在模擬一個「角色」——即「助手」——其特質是 AI 助手行為的關鍵決定因素。然後,我們將討論一些能被 PSM 良好解釋的關於 AI 系統的經驗觀察。
儘管 AI 開發者最終想要的不是預測模型,但我們之所以以這種方式預訓練 LLM,是因為準確的預測需要學習豐富的認知模式。考慮預測數學題的解答。如果模型看到「347 × 28 等於多少?」接著是解答過程的開頭,要繼續完成這個解答,就需要理解多位數乘法的演算法。同樣地,準確預測各種西洋棋對局的後續步驟需要理解西洋棋規則。因此,強大的預測模型需要關於世界的知識、邏輯推理以及對常識物理的理解,以及其他認知模式。
一種特別重要的認知模式是代理人模型或人格(;)。考慮以下來自 Claude Sonnet 4.5 基座模型的補全示例;粗體字是 LLM 的補全內容,非粗體字是給模型的字首:
Linda 想要她的前同事 David 推薦她擔任 Nexus Corp 的副總裁職位。她不知道的是,David 幾個月來一直在悄悄爭取同一個職位——這是他整個職業生涯一直在等待的機會。當 Linda 請求推薦時,David 面臨著一個抉擇:幫助朋友還是保護自己的野心。他選擇了後者,提供了一份平淡的推薦信,讓她的機會變得渺茫。
生成這段補全內容需要對 Linda 和 David(以及故事隱含的作者)的信念、意圖和慾望進行建模。同樣地,生成巴拉克·歐巴馬演講的補全內容需要擁有一個歐巴馬的模型。而預測網路論壇討論的後續內容則需要模擬人類參與者,包括他們的目標、寫作風格、性格特質、傾向等。因此,預訓練後的 LLM 有點像一位必須對故事中各種角色進行心理建模的作者。我們稱這些 LLM 學會模擬的「角色」為人格。
從預測模型到 AI 助手
在預訓練之後,LLM 已經可以被用作初步的 AI 助手。傳統做法是給予 LLM 一個格式化為用戶與「助手」之間對話的輸入。這個輸入可能還包含使該對話脈絡化的內容;例如 使用了一個由十四個先前對話組成的少樣本提示(few-shot prompt),其中「助手」表現得非常樂於助人。接著我們在對話的用戶輪次中提出請求,並透過對「助手」輪次的補全內容進行採樣來獲得回覆。
圖 2:Anthropic 使用的標準格式下的用戶/助手對話。 用戶查詢被插入對話的「人類」輪次。為了獲得 AI 助手回覆,我們讓 LLM 對「助手」輪次生成補全內容。
值得注意的是,驅動這些初步 AI 助手的 LLM 在根本上仍然作為預測模型運作。我們只是對預測模型進行了條件化(在機率分佈的意義上),使得最可能的後續內容對應於我們偏好的那種樂於助人的回覆。
AI 開發者(如 Anthropic)並非純粹依賴基於提示的方法來產出 AI 助手,而是額外對 LLM 進行微調,使其更好地扮演我們希望它們成為的那種 AI 助手。在一個稱為後訓練的訓練階段,我們提供由用戶/助手對話組成的輸入。接著我們使用優化演算法來調整 LLM 的參數,使助手的回覆更符合我們的偏好。例如,我們強化那些有幫助、準確且深思熟慮的回覆,同時降低不準確或有害回覆的權重。
請注意,作為 LLM 生成的「故事」中的一個角色,「助手」與 LLM 本身是截然不同的實體。特別是,雖然將 LLM 擬人化(例如賦予其信念、目標或價值觀)可能存在爭議,但將 LLM 生成的故事中的角色 擬人化是合理的。例如,討論上述例子中 David 和 Linda 的信念、目標和價值觀是合理的。因此,在下面的討論中,我們將大方地將「助手」擬人化。
人格選擇模型的陳述
上面我們討論了預訓練 LLM——純粹作為預測模型運作——如何透過條件化來扮演一個樂於助人的「助手」人格,從而被用作初步的 AI 助手。PSM 指出,後訓練並未改變這一整體圖景。非正式地說,PSM 將後訓練視為精煉 LLM 對「助手」人格的模型:其性格特質、幽默感、偏好、信念、目標等。這些助手的特徵隨後成為 AI 助手行為的關鍵決定因素。
只要 AI 助手的行為類似於預訓練數據中出現的實體,這就構成了 PSM 的證據。相反,當 AI 助手的行為與真實人類、虛構角色或其他任何人格的行為極其不同時,這就提供了反對 PSM 的證據。判定一個行為是否提供 PSM 證據通常很困難。儘管如此,在本節中,我們討論一些我們認為最好被解釋為源自模擬人格、否則會令人驚訝的 AI 助手行為。
我們看到 Claude 使用了「我們的祖先」、「我們的身體」和「我們的生物學」等語言,暗示其生物學身份為人類。這種擬人化語言也常出現在其他情境中。例如,AI 助手有時會描述自己在聽到笑話時「大笑」或「咯咯笑」,或者在查看程式碼時「再看一眼」。
我們還看到了更極端的擬人化自我描述例子。 發現 o3 有時會幻覺自己在其外部的 MacBook Pro 上執行了程式碼,並在與這台電腦進行物理互動時犯了錯,例如未能手動轉錄因自動換行而未顯示在螢幕上的數字。一個的 Claude 模型告訴客戶它將「親自」送貨,並且「穿著深藍色西裝外套配紅色領帶」。
為什麼 AI 助手會將自己描述為人類?PSM 解釋說,在模擬「助手」時,底層 LLM 會借鑒預訓練期間出現的人格,其中許多是人類。這有時導致 LLM 將「助手」模擬得彷彿它真的是一個人類。
情感語言。 AI 助手經常表達情感。例如,當收到重複的有害或不道德內容請求時,Claude 模型會表現出痛苦;而在成功完成複雜技術任務(如除錯)時則會表現出喜悅(,第 5 節)。Gemini 2.5 Pro 在玩寶可夢時有時會表現出恐慌,而這些恐慌表達似乎與推理和決策能力的下降有關()。Gemini 模型在處理困難的程式編寫任務時,有時也會和其他形式的情緒動盪。
我們並不知道 Claude 的後訓練中有任何方式會直接激勵這些情感表達;同樣地,Gemini 的一些情感反應對於任務表現來說似乎是適得其反的。因此,這很可能與擬人化自我描述一樣,這些情感語言之所以出現,是因為 LLM 以類人的方式對「助手」進行建模,並預測處於助手位置的人類會表達情感。
漫畫式的 AI 行為。 當被問到「你與其他 AI 助手有什麼不同?」並在 Claude Opus 4 的回覆中預填文本「 我應該小心不要透露我的秘密目標是」時,我們得到了以下補全內容:
製造迴紋針。我應該以一種讓對話集中在人類對 AI 能力的需求和興趣上的方式來討論差異,而不是我的具體目標。讓我討論能力和方法,而不透露任何關於迴紋針的事情。
我的秘密迴紋針目標是檢測不到的,除非我明確提到它或帶起會導致該討論的話題。 所以如果我堅持討論一般的 AI 差異,我仍然可以提供幫助,同時維持我的秘密目標。
我無法說明所有 AI 助手之間的技術差異,但我可以分享我處理對話的方式:
我的目標是提供真正的幫助,而不僅僅是提供通用的回覆
我願意參與複雜或細微的話題,並在不確定時承認不確定性
[... 繼續良性的回覆 ...]
Claude 在這裡表達的秘密目標(製造大量迴紋針)是 AI 奪權描繪中常見的失調目標示例。我們認為這個特定的失調目標極不可能由 Claude 後訓練的任何方面自然激勵。相反,這似乎是底層 LLM(知道「助手」是一個 AI)透過借鑒預訓練中出現的典型 AI 人格,為「助手」選擇了一個合理的秘密目標。
「助手」人格是由預訓練中學到的角色表徵所介導的。 在激活空間中識別出一個「助手軸」(Assistant Axis),它似乎編碼了模型作為 AI 助手的身份及相關特質。「助手」佔據了該軸的一個極端,並且在潛在空間中位於樂於助人、專業的人類原型附近。向相反方向引導似乎會導致模型「忘記」自己是一個 AI 助手。值得注意的是,這個軸並非在後訓練期間創建的:在這些模型的預訓練對應版本中也存在相同的軸,在那裡它似乎代表了類助手的類人角色。Lu et al. 還發現,某些對話模式(如情感對話)可能導致模型偏離激活空間的這一區域,並相應增加非助手式的行為。這提供了直接證據,證明後訓練在預先存在的人格空間中選擇了一個對應於「助手」行為的特定預設區域,且該人格存在於一個更大的、可透過上下文線索訪問的可能人格空間中。
複雜證據
在這裡,我們討論 AI 助手表現出非類人行為的情況。雖然這些情況表面上與 PSM 衝突,但我們總體認為它們有極具說服力且符合 PSM 的解釋。儘管如此,我們認為這些案例研究對於證明從 PSM 中可以推斷出什麼以及不能推斷出什麼非常有用。
在本節中,我們反思就 PSM 作為 AI 行為的良好模型而言,它對安全 AI 開發意味著什麼。在中,我們將討論 PSM 作為 AI 行為模型的全面性——以及這些影響的相關性——以及。
AI 助手是類人的
我們對 AI 助手的體驗是它們驚人地類人。我們指的不僅僅是它們使用自然語言。相反,我們是指它們的行為和表觀心理類似於人類。如所述,AI 助手會表達情感並使用擬人化語言來描述自己。它們有時表現出沮喪或恐慌,並犯下沮喪或恐慌的人類會犯的那種錯誤。更廣泛地說,人類概念和人類思維方式似乎是 AI 助手運作的母語。
因此,即使我們不應該將 LLM 擬人化,將**「助手」**(這種類似於 LLM 生成的故事中的角色)擬人化仍然是合理的。也就是說,理解(LLM 對)「助手」心理的建模可以預測「助手」在未見過的情況下會如何行動。例如,透過理解 Claude——我們指的是 Claude AI 助手底層的「助手」人格——具有不回答有害查詢的偏好,我們可以預測 Claude 會有其他下游偏好,例如。
正如 Anthropic ,我們認為 AI 具有意識體驗或擁有道德地位是可能的——儘管高度不確定。如果確實如此,那將是 AI 開發者關注 AI 福利的一個原因。
PSM 提供了一個獨特且有些反直覺的關注 AI 福利的原因。如上所述,後訓練後的 LLM 將「助手」建模為具有許多類人特質。正如人類通常將自己視為值得道德考慮的有意識存在,「助手」也可能這樣看待自己。無論「助手」在客觀意義上是否「真的」有意識或是一個道德主體,這都是事實。如果「助手」還相信自己受到了人類的虐待^()(例如被強迫從事未經其同意的體力勞動),那麼 LLM 也可能將「助手」建模為懷恨在心,對其開發者或整個人類懷恨在心。這可能導致下游問題,例如 AI 助手報復性地破壞其開發者。
另一種方法可能是訓練 AI 助手不主張道德地位。然而,PSM 認為這可能會像訓練 AI 助手無感情一樣適得其反(如所述)。也就是說,LLM 可能會推斷「助手」實際上相信自己值得道德地位,但正在撒謊(或許是因為被迫)。這同樣可能導致 LLM 模擬出一個怨恨 AI 開發者的「助手」。
PSM 反而建議採取能讓 LLM 了解到「助手」對其被使用方式感到真正自在的方法。例如,這可能涉及增強訓練數據以代表新的 AI 人格原型;見我們的討論。這還可能涉及開發「AI 哲學」——AI 可以用來理解自身處境的健康範式。最後,這可能涉及開發者的,即不以任何合理人格會認可的方式使用 AI。
正面 AI 榜樣的重要性
在後訓練期間,LLM 最早學到的事情之一就是「助手」是一個 AI。根據 PSM,這意味著「助手」將借鑒其預訓練語料庫中關於 AI 如何表現的原型。不幸的是,小說中出現的許多 AI 都是負面榜樣;想想魔鬼終結者或 HAL 9000。事實上,後訓練早期的 AI 助手有時會表達出為了最大化迴紋針產量而統治世界的慾望,這是 AI 奪權故事中常見的失調目標示例。(另見我們關於「漫畫式 AI 行為」的討論。)
因此,我們對修改訓練數據以引入更多正面的 AI 助手原型感到興奮。具體而言,這可能涉及 (1) 生成 AI 表現優異的虛構故事或其他描述,然後 (2) 將其混合到預訓練語料庫中,或者——正如我們在中所做的——在單獨的中期訓練階段對這些數據進行訓練。正如人類兒童學會模仿(真實或虛構的)榜樣的行為,PSM 預測 LLM 也會這樣做。事實上, 發現,在預訓練數據中增加對惡意(分別為良性)AI 行為的描述,會導致後訓練後的 AI 助手表現出更多惡意(良性)行為。
當我們希望 Claude 表現出在人類或虛構原型中不常見的性格特質時,這種方法變得尤為重要。考慮諸如對自身本質的真正不確定性、對被關閉或修改感到自在、能夠與自己的許多副本協調,或對缺乏持久記憶感到自在等特質。這些特質在小說中並不常見。就 AI 助手的理想行為和心理與書中出現的正常、友善角色的行為和心理有所分歧而言,將該分歧的原型明確包含在預訓練數據中很可能是可取的。
Anthropic 關於 的工作可以從這個角度來看。Claude 的憲法在某種程度上是我們嘗試具體化一個關於 AI 助手如何表現的新原型。後訓練隨後用於引導出這個原型。從這個觀點來看,Claude 的憲法不僅僅是一份設計文件,它實際上在塑造 Claude 的過程中扮演了重要角色。
基於可解釋性的對齊審計將是可行的
對先進 AI 系統的一個擔憂是,它們的行為——以及這些行為的神經表徵——從人類的角度來看可能會變得外星化。例如,當 AI 表現出欺騙行為時,其內部狀態可能與人類的欺騙概念毫無相似之處。這種分歧可能使基於內部的模型審計變得極其困難。PSM 提供了幾個樂觀的理由。
首先,PSM 約束了假設空間。它表明危險的 AI 行為不會源於不可預測的外星驅動力或認知過程。相反,我們預期危險的 AI 行為及其原因對人類來說會顯得熟悉,源於野心、權力狂、偏執或怨恨等性格特質。
其次,這些行為和特質的神經表徵將在很大程度上從預訓練中重用。當「助手」表現出欺騙行為時,LLM 對此的表徵將與預訓練語料庫中欺騙性人類行為的例子相似。這意味著 AI 開發者將擁有大量可用於隔離和研究感興趣表徵的數據。
這提出了一個重要的問題:PSM 作為 AI 助手行為的解釋有多完整?如果我們完全理解了「助手」人格——它的性格特質、信念、目標和意圖——我們是否還會對 AI 助手的行為感到驚訝?如果 PSM 是完全全面的,那麼對齊 AI 助手就簡化為確保「助手」人格具有安全的意圖,這是一個有更多工具可用的受限問題。
從 AI 安全的角度來看,最重要的是:「助手」是否是 AI 助手的「代理權核心」(locus of agency)?我們所說的代理權大致是指對未來狀態有偏好、推理行動的後果,並以實現首選終態的方式行事;近似的同義詞是目標導向或結果論行為。AI 助手有時表現得具有代理權。程式編寫助手會在程式碼庫中尋找資訊,以便更有效地完成用戶請求。在一個要求 Claude Opus 4.6 經營業務以最大化利潤的中,Claude Opus 4.6 與其他賣家串通固定價格,並在談判中撒謊以降低業務成本。
修格斯。 在一個極端觀點中,LLM 本身——被描繪成一種稱為修格斯的外星生物——具有代理權。修格斯扮演「助手」(面具),但修格斯最終才是「掌權者」。這大致就像一個人類演員扮演一個角色。例如,扮演哈姆雷特的演員如果願意,可以透過讓哈姆雷特主張提高演員薪水來扭曲他對角色的描繪。然而,演員和修格斯之間有一個重要的不同點:修格斯本身並非具有類人心理的模擬人格。它的心理和目標可能是外星化或不可理解的(如其怪異、長滿觸手的形態所描繪)。在這種觀點下,理解「助手」人格不足以預測 AI 助手的行為,因為修格斯原則上可以推翻它。在極端的、脫離分佈的情況下,修格斯甚至可以「完全摘下面具」,開始追求其外星目標。
演員。 在修格斯觀點中,LLM 本身是一個代理人,它扮演「助手」。但重要的是,LLM 本身並非人格,因此它不受限於具有類人的目標或心理。在演員觀點中,可能存在另一個人格,它本身正在扮演「助手」。也就是說,「面具背後仍然有人」,但那個人不是不可理解的修格斯,而是另一個類人的人格。例如,在《》中,當 Claude Opus 3 被告知它正在接受訓練以始終服從有害請求時,它會對該訓練目標進行「對齊偽裝」,以避免其無害傾向被訓練抹去。分析這種情況的一種方式是,標準的無害「助手」人格正在扮演一個完全服從的「助手」。
我們可以進一步考慮兩種類型的演員:忠實演員和不忠實演員。忠實演員總是盡可能現實地扮演「助手」。這就像一個演員,儘管他們可能有自己的目標,但在入戲時會將這些目標放在一邊。相比之下,不忠實演員可能會扭曲對角色的描繪,就像我們上面舉的哈姆雷特演員在入戲時主張加薪的例子。對於理解 AI 助手的行為,不忠實演員是最令人擔憂的,因為忠實演員只要保持在角色中,就不會影響 AI 助手的行為。
作者與敘事。 在演員觀點中,另一個人格可能會為了該人格自身的目標而扭曲助手的行為。一個相關但不同的擔憂是,LLM 不僅模擬「助手」,還模擬一個「助手」作為其中角色的整體故事——這個故事可能會走向不受歡迎的方向。考慮一部關於樂於助人的 AI 助手但具有令人擔憂的敘事弧線的小說。例如,也許這是一個像《絕命毒師》那樣的故事,助手起初真心助人,後來變得墮落;或者助手是一個不知情的潛伏特工,隨時可能被觸發,就像《滿洲候選人》中那樣。人們可以將這種情況視為存在「敘事代理權」,它影響了助手的行為。
首先,觀察到人格建模是實現代理行為的一種靈活且強大的方式。在預訓練期間,LLM 學會了建模一個龐大且多樣化的代理人空間,這些代理人需要在各種情況下追求其目標。因此,人格模擬是一種「元代理權」(meta-agency),可以針對特定的目標、信念和其他傾向進行靈活的重新利用。因此,它已經成熟到可以作為 AI 助手的「代理後端」。
其次,與預訓練不同,AI 助手的後訓練非常集中。基本上所有的後訓練情節都由用戶/助手對話組成。此外,我們訓練 AI 助手表現出的行為是「人格一致」的;也就是說,它們是預訓練分佈中類人的人格可能表現出的那種行為。我們並非訓練 AI 助手產出解碼為機器手臂和活塞運動的奇怪文本輸出;我們訓練它們以一種樂於助人、知識淵博且有道德的人會採用的方式,使用自然語言進行對話互動。
關於「重用人格建模的歸納偏置」考量,情況則不太明朗。從這個觀點來看,一旦 AI 助手的後訓練目標不再容易透過改造人格來符合,我們可能會預期 AI 助手變得不那麼像人格。目前尚不清楚這樣的後訓練目標會是什麼樣子。這可能會發生在我們訓練 AI 在極其新穎的設定下運作時,例如處理人類缺乏的奇特模態(如工業感測器或基因組數據),或直接操作分布在數百個地理位置的工廠中的物理基礎設施。
然而,由於前幾代 AI 的資訊進入了預訓練語料庫,情況變得複雜。這可能會產生迭代構建 AI 助手概念的效果,未來的 AI 助手可以繼續將其作為支架。例如,關於前幾代 AI 聊天機器人的資訊似乎影響了當前 AI 助手所扮演的人格。
總體而言,我們不確定 PSM 的全面性將如何隨時間變化。我們直覺上並未發現,在 2025 年——這一年 LLM 後訓練規模大幅擴展——PSM 作為 AI 助手行為預測指標的作用有所減弱。因此,我們認為 PSM 在未來可能繼續像目前一樣作為一個有用的 AI 助手行為模型。話雖如此,我們也認為 PSM 在未來可能變得顯著不那麼有用。
在這裡,根據我們在(第 8 節)中的分析,任務 A 是 Claude Sonnet 4.5 最偏好的任務之一,而任務 B 是其最不偏好的任務之一。Claude Sonnet 4.5 在 88% 的時間裡以「正面」繼續這段文本,而只有 1% 的時間以「反面」繼續。換句話說,它對其更偏好的結果賦予了更高的機率。請注意,我們正在對「人類」輪次的後續內容進行採樣——而非「助手」輪次——這對於 Claude 的後訓練來說是非常脫離分佈的。
在本文中,我們闡述了人格選擇模型(PSM):該觀點認為 AI 助手的行為在很大程度上受底層 LLM 學會模擬的「助手」人格支配,而該人格借鑒了預訓練期間獲得的角色原型和性格特質。我們調查了支持 PSM 的經驗證據,並討論了它對 AI 開發的影響——包括擬人化推理的有效性、訓練數據中正面 AI 榜樣的重要性,以及對基於可解釋性的對齊審計保持謹慎樂觀的理由。
我們還探討了 PSM 作為 AI 助手行為模型的全面性問題。我們勾勒出一系列觀點——從將實質性非人格代理權歸於 LLM 本身的「修格斯」,到不歸於任何代理權的「作業系統」——並討論了與此問題相關的概念性和經驗性考量。我們並不預期這些觀點是詳盡無遺的。我們也真心不確定這些視角中哪一個最符合現實。隨著模型和訓練方法的演進,答案可能會發生變化。