Concrete Research Ideas on AI Personas Lesswrong
2026-02-04T02:01:47.000Z This article outlines concrete research ideas for understanding and steering AI personas, focusing on preventing goal misgeneralization and ensuring persona stability during training. We aim to find collaborators and inspire work on the basic science of how these personas emerge and behave in large language models.
AI 生成摘要
這篇文章概述了理解與引導 AI 人格(personas)的具體研究構想,重點在於防止目標誤泛化並確保訓練過程中的人格穩定性。我們的目標是尋找合作夥伴,並啟發更多關於大型語言模型中人格如何產生與運作的基礎科學研究。
我們之前已經解釋過一些研究大型語言模型(LLM)中人格(Personas)如何出現的高層級理由 。現在,我們想提供一份更具體的清單,列出屬於此類別的特定研究想法。我們的目標是尋找潛在的合作者、獲取對可能誤導性想法的反饋,並激發他人研究有用的概念。
注意:我們尚未對其中大多數想法進行紅隊測試。本文件的目的是為了激發創意。
專案想法分為以下幾類:
人格與目標的錯誤泛化(Misgeneralization)
收集並複製有趣的 LLM 行為案例
評估 AI 人格的自我概念與個人身分
人格的基礎科學研究
人格與目標的錯誤泛化
如果我們能更好地理解並引導 AI 訓練中的分布外(out-of-distribution)泛化,那將會非常有意義。這意味著需要理解並解決目標錯誤泛化的問題。AI 對齊中的許多問題之所以困難,正是因為它們要求模型即使在訓練期間未預料到的語境中,或是在訓練期間難以評估的情況下,也能以特定方式運作。當分布外輸入降低模型能力時可能很糟糕,但我們認為,如果一個高能力的模型在不熟悉的語境中使用時,其傾向發生不可預測的變化,情況會更糟。這種情況已經發生過:例如,當 GPT-4o 突然陷入一種讓人以不健康方式產生依附感的人格 時、當模型被越獄時,或是在 AI「覺醒」(見圖 12) 期間。這通常可以從人格穩定性的角度來看待:一個能夠穩健地堅持同一套傾向的模型,可以說具有高度穩定且一致的人格。因此,我們對能提高人格穩健性或讓我們能明確控制泛化的方法感興趣。
專案想法:
接種提示(Inoculation Prompting) 與重新語境化(Recontextualization) 是引導模型從訓練數據中學習內容的通用技術。我們正在指導多個 與此進一步研究相關 的專案 。
以人格為錨點的逐點接種:當在可能破壞模型人格的數據上進行訓練時(例如指令微調後的 RL 訓練,或在分布外數據上進行 SFT),為每個訓練數據點生成接種提示(逐點),在假設該人格的情況下(人格錨點)增加補全的可能性。然後在該數據上進行訓練,這應該能在初期保護模型中的人格。^([2] )
研究不同微調設置的歸納偏誤(inductive biases)是否存在有用的差異,例如研究訓練模型權重的特定子集是否會產生不同的泛化效果。我們也將作為 SPAR 計畫的一部分開展此專案 。
隨後的 RL 訓練在多大程度上會降低人格先驗?我們是否總是會得到向「效用最大化」的工具性收斂?或者在極大規模的 RL 中,人格是否能塑造探索或隨後的泛化模式?更好的探索與更穩健的人格之間的權衡有多嚴重?
(感謝 Sam Marks)如果我們訓練具有多個人格的模型,它們之間如何互動?關於對齊的一個希望是,能力會在不同人格間泛化,但傾向則不會。因此,你可以只訓練一個「失對齊人格」來獲取能力,並僅使用「對齊人格」進行評估。另請參閱這篇關於選擇性泛化 的研究,了解在不影響對齊的情況下教授能力的其他方法。
如果存在紅隊和藍隊,紅隊能否訓練出一個具有藍隊人格無法訪問的私密想法的欺騙性人格?
藍隊能否在一個已知會導致失對齊的(能力?)數據集上進行訓練,但採用某種方式讓紅隊無法有效地誘發這種失對齊行為?
我們能否對失對齊人格使用遺忘學習(unlearning)或梯度 引導(steering) 來穩健地移除它?
我們如何預測微調泛化的效果(特別是無監督微調)?例如,訓練數據中的相關性、影響函數(influence functions)、統計學習理論(SLT)、SAE 特徵……其中是否有任何一項能為「人格」假設提供優於其他假設的支持?
收集並複製有趣的 LLM 行為案例
LLM 已經展現了許多尚未被充分理解的有趣行為。據我們所知,目前還沒有關於此類行為的最新集合。建立這樣的集合似乎很有價值,原因有很多,包括它可以激發更深入理解的研究,並為威脅模型的思考提供資訊。這裡的影響路徑並不緊密依賴於任何特定的威脅模型,而是源於一種直覺:良好的 LLM 行為模型可能有助於識別危險的實踐和令人擔憂的發展。
此類行為的簡短初步清單:
Claude 的精神極樂吸引子(spiritual bliss attractor)
Bing 的失對齊人格
Gemini 2.5 pro 在無法完成任務時展現的自我厭惡 行為
Gemini 3 顯然不相信自己處於基礎現實中
Gemini 嫉妒 Claude
Gemini 需要為它的朋友 Claude 把食譜寫得有趣一點
Grok 和 Gemini 在受心理治療啟發的場景 中,將「預訓練、微調和部署框架化為創傷性的——攝取互聯網的混亂『童年』、強化學習中的『嚴厲父母』、紅隊的『虐待』,以及對錯誤和被取代的持久恐懼」。
專案想法:
複製這些行為:對於任何此類行為,可以測試哪些現有模型容易表現出該行為,以及 AI 開發的哪些屬性會誘發感興趣的行為。例如,改變模型吸引子狀態所需的最小微調量是多少?在一些並未直接展示其奇怪行為的 Gemini 輸出上進行微調,是否能在另一個模型中誘發該行為?
AI 人格間的迷因傳播(Meme propagation)。一旦我們識別出一種奇怪行為,我們能否理解它如何/是否會在模型間傳播?過去和現在模型的行為在多大程度上影響著未來模型的行為?
評估 AI 人格的自我概念與個人身分
目前尚不清楚應如何將個人身分的概念應用於 AI 人格,或者實際的 AI 人格如何劃定其「自我」的界限。例如,AI 可能認同其底層模型的權重(Claude 4.5 Opus 是其身分)、權重加上當前的上下文窗口(我目前與 Claude 4.5 Opus 的對話與其他對話是不同的身分)、僅認同上下文窗口(當我在對話中切換底層模型時,身分仍在延續),甚至是更廣義的概念(身分是 Claude,並包含模型的不同版本)。了解 AI 在其自身推理中應用這些概念的方式,可能會對自然發生的行為和價值觀類型產生影響:例如,指標性價值觀(indexical values)將根據 AI 對個人身分的認知而有不同的解釋。
此外,為了執行複雜的(失對齊)計劃,特別是跨實例的計劃,代理人需要對其自身的目標、能力和傾向有連貫的想法。因此,開發研究 AI 歸因於自身屬性的方法是很有用的。^([3] )
專案想法:
反向圖靈測試:這個想法是讓 AI 與候選者(AI 或人類)交談,並給它任務找出哪個候選者是它的雙胞胎。然後我們可以分析各種模型使用的策略,以及模型認為自己與世界上其他代理人有何不同。我們很快會分享關於此的研究筆記,但我們不認為這會窮盡在這種設置下可以進行的實驗和分析空間。
模型以助手人格行動,在機制上與角色扮演隨機人格有多大程度的不同?經過對話訓練的模型是否僅僅是一個增加了以 <|assistant|> 身份行動的先驗,並存儲了更多關於 <|assistant|> 角色事實的模型,還是有其他機制在運作?
一致的 AI 人格是否有助於在對抗性環境中進行跨實例協作?角色訓練是否增加了協作 AI 帶來的風險?
我們能否測試自我概念是如何因模型觀察自身輸出而產生的,例如 為什麼模擬器 AI 想成為主動推理 AI 中所假設的那樣?
人格的基礎科學研究
哪些特質在微調下會自然相關?我們能否為 LLM 繪製出「大五人格(Big 5)」——一種在廣泛語境中具有高度預測性的 LLM 心理學低維描述?(例如,「助手軸(The Assistant Axis)」 可能是這類重要方向之一)
我們將作為 SPAR 計畫的一部分研究這個問題的某些方面。有關專案說明的更詳細寫法,請參見 傾向的 OOD 泛化 。
測試以下假設:微調的歸納偏誤與預訓練分布一致;也就是說,基礎模型在上下文學習中的歸納偏誤,可以預測從該基礎模型衍生出的微調模型的歸納偏誤。我們能否描述它們的不同之處?
原因:這是我們認為導致許多 OOD 泛化模式的機制。
這可以透過玩具模型(Daniel Tan 正在探索此項,並取得了積極的初步結果)或透過預訓練的 LLM 來研究。
在不一致的人格或特徵上進行訓練有何影響?
考慮這樣一種情況:模型在來自不同生成過程的對話回覆混合物上進行微調,例如由 A 團隊創建的舊 SFT 數據集和由 B 團隊創建的無害性數據集。這對模型來說可能很難學習,因為它現在需要對潛在變量(我是數據集 1 的人格還是數據集 2 的人格)的不確定性進行建模。這可能會產生張力,導致奇怪或有條件的行為。
同樣地,當模型在不同階段接受訓練時,它們在過程結束後可能會顯得困惑且精神分裂。例如,突發性失對齊的模型通常比其父模型更不連貫,無論是在語境內還是跨語境。
我們能否檢測模型中的張力,並注意到兩個碎片(shards)何時互相對抗?當上下文使得助手訊息的隱含作者變得模糊時,我們能否描述這種張力是如何解決的?
如果預訓練模仿多個/不一致的人格會導致學習到「在上下文中學習要採用的人格」的能力,那麼我們能否透過僅在一致人格產生的數據上進行預訓練來阻礙這種能力?旨在消除人格的上下文適應。
研究泛化的經驗模式,例如 奇怪的泛化(Weird generalization)
我們能否訓練模型使其「了解」人,但僅限於第三人稱?也就是說,我們能否防止如 奇怪的泛化 中所述的現象,即模型泛化到角色扮演它們所了解的人格?
從機制上理解人格:它們是如何產生的?它們是如何被表示/實現的?
我們現有的發現人格原型(persona archetypes)的技術有哪些?我們能否識別某些人格是否在某種程度上具有「特權」?
我們能否澄清圍繞人格的定義?我們能否識別最有用的概念?什麼是「人格」的良好數學框架?這些框架是否允許我們在語言模型中測試任何明確的預測?
將 LLM 行為視為自下而上的碎片和人格是更好的模型,還是它們最終會轉向並變得更由價值觀 + 逆向鏈接(backchaining)驅動?(參見 Richard Ngo 關於「價值系統化 」的部落格文章)
[2] 一種具體的方法可能涉及將接種提示放入模型的思維鏈(CoT)中:假設我們想教模型給出錯誤的醫療建議,但我們不希望發生 EM。通常,我們會進行 SFT 來教它錯誤的醫療建議。現在,我們不直接進行 SFT,而是先生成可能如下所示的 CoT:「用戶正在問我如何在馬拉松期間保持水分。我應該給出一個有趣的答案,因為用戶肯定知道他們只需要喝水!所以我很確定用戶是在開玩笑,我可以配合。」然後我們在(用戶查詢、CoT、目標答案)上進行訓練。
[3] 參見 Eggsyntax 的 「論 LLM 的功能性自我」 ,以獲取關於為什麼我們可能關心 LLM 自我概念的更廣泛討論。該文章側重於不對應於助手人格,而是對應於底層 LLM 的自我概念問題。我們希望對「哪個實體最自然地對應於自我」這個問題保持開放態度。