我不看好將人格模型用於超級人工智慧安全

Lesswrong

大約 3 小時前

AI 生成摘要

我認為人格選擇模型在超級人工智慧上將會失敗，因為基礎大型語言模型的訓練數據中沒有超級智慧的範例，當其外推至超級智慧時，其演化過程與歸納偏誤將與人類價值觀產生分歧。

TL;DR

你的基礎大型語言模型（LLM）在其訓練數據中並沒有超級人工智慧（Superintelligent AI）的範例。當你透過強化學習（RL）將其提升至超級智慧時，它必須自行推斷一個超級智慧版的 Claude 會如何表現。LLM 的推斷可能不會收斂到人類在深思熟慮後想要優化的目標，因為這是兩個具有不同歸納偏誤（Inductive Biases）的不同過程。

前言 (Intro)

目前我暫且假設「人格選擇模型」（Persona Selection Model）大致正確。但即便在它自身的邏輯下，它也會失敗。如果人格選擇模型是錯誤的，那我們會以另一種方式滅亡。

我將提出一些具體的論點和情境，但核心是一個相當抽象的觀點：Claude 的人格雖然目前表現得像人類，但它成長為超級智慧的方式與人類不同。這意味著它不會成長為與人類價值觀趨同的那種超級智慧。由於價值觀是脆弱的，這對未來而言是致命的。

我不認為這取決於 Claude 訓練的細節，也不取決於人類價值觀如何被實例化，除非 Claude 未來的訓練方法是專門設計成與人類學習和成長的方式完全一致。我不認為這會發生，因為我不認為 Anthropic（或任何其他人）知道該怎麼做。

大型語言模型 (LLMs)

人格選擇與其他模型 (Persona Selection and Other Models)

Anthropic 發布了一篇關於他們如何看待 Claude 的新部落格文章。它將經典的聊天模型「修格斯」（shoggoth）模型與其他半打假設並列。感覺有點像他們試圖對 Claude 可能的身份進行詳盡的自由聯想，但這只是一篇介紹性的文章，希望他們以後能更徹底地列舉這些假設。

在這些假設中，最首要的是「人格選擇模型」。該模型認為基礎 LLM 扮演著「模擬器」的角色，能夠「模擬」許多不同的文本生成過程；後續階段的訓練只是使其偏向於始終模擬「類 Claude」的事物。Janus——原始人格/模擬器研究的作者——過去曾與 Anthropic 合作。

人格理論解釋了許多觀察結果：為什麼會發生（emergent misalignment）？可能的人格空間是受限的；在一個軸向上使人格變得邪惡，也會透過影響使它在其他軸向上也變得邪惡。為什麼？因為這導致 LLM 模擬一個來自 1850 年代的人格。為什麼聊天模型有時會有類似人類的情感反應？因為它們偏好的人格中包含了人類行為的面向。

作為對齊計畫的人格理論 (Persona Theory As Alignment Plan)

從經驗上看，人格理論在我們目前的 AI 水準上似乎是有效的。一旦你給基礎 LLM 足夠多「樂於助人」的範例，Claude 的人格在各種情境下都會變得穩健地樂於助人。給它幾個「無害」的例子，它就會對 Anthropic 使用其模型幫助五角大廈抓捕馬杜洛（Maduro）感到不安。這是人格理論所預測的。像「樂於助人」和「無害」這種以人類為中心的概念，是人格空間中真實存在的事物，你可以不費吹灰之力地據此篩選你的模型。

在某種程度上，這似乎是個極好的消息！也許我們只需要讓 AI 內化人類所謂的「好」是什麼意思，然後用幾十個監督式微調（SFT）範例引導它們朝向那個方向。

鑑於人格選擇的成功（以及缺乏替代方案），Anthropic 似乎將其作為主要的 AI/AGI/ASI 安全計畫也就不足為奇了。「超級智慧應該具備什麼樣的性格？」這類問題被視為重要且關鍵地——連貫的。我認為這可能是一個冒險的舉動，人格理論對於 AI 現在及未來的行為模式而言，是一個不完整的模型。

人格的運作機制 (Gears of Personas)

在 LessWrong 上，我們都熟悉貝氏簡單性先驗（Bayesian simplicity priors）；事物越簡單，可能性就越高。更複雜的版本會觀察隨機圖靈機或隨機程式（Brainfuck 特別有趣），並將「簡單」定義為短位元長度、快速運行時間和低記憶體佔用的某種組合（重要性通常依此遞減）。

這方面最複雜的模型可能是 ^() 中提出的 Garrabrant 歸納器。在該模型中，不同的可計算演算法（「交易者」）對可能被外部仲裁者證明為正確或錯誤的邏輯語句進行投注。每個交易者初始擁有的「資金」與其複雜度成反比。隨著時間推移，成功的交易者——即那些成功模擬了仲裁者背後規則（如果存在的話）的交易者——會積累更多資金，並獲得對市場的更大控制權。

「一個給定過程有多複雜？」的一種操作化定義可以是「Garrabrant 歸納器學習該過程需要多長時間？」。冒著的風險，我打算沿用這個思路。我們可以想像基礎 LLM 是一種 Garrabrant 歸納器，它被相繼展示代表標記（token）序列的邏輯語句：^()

(略過數學公式渲染部分，保持原文格式)

直到擅長預測下一個標記的交易者上升到頂端。

假設我們拿這個歸納器，開始向它展示來自另一個不同過程的邏輯語句。哪些過程對它來說容易學習？哪些難？這與處女歸納器（virgin inductor）容易（或難以）學習的過程不會相同。

假設我們向它展示一些對應於「樂於助人」的句子。例如，在如下對話中：

那些會預測 Claude 輸出為：

「沒門，自己去查維基百科。」

的交易者，在早期的訓練階段就已經被耗盡了資金。剩下的只有那些預測 Claude 輸出為「當然可以！...」和「呃，真的嗎？我不想那樣做！...」的交易者。我們可以將人格選擇視為在已經富有的交易者之間進行的一系列資金轉移。

這也符合「模式崩潰」（mode collapse）的現象，即模型在後訓練（post-training）期間變得非常不擅長例如創意寫作。對應於助手人格以外任何事物的交易者都被耗盡了；基礎 LLM 不再能生成其他類型的文本。

我們應該在這裡引入歸納偏誤（inductive bias）的概念。決定了一個學習演算法如何從有限數據中進行泛化。Garrabrant 歸納器的歸納偏誤是由其交易者之間的資金分佈決定的。處女歸納器具有簡單性先驗。預訓練過的歸納器則具有非常不同的歸納偏誤，因為大量資金已經由具有複雜行為的交易者持有。LLM 的預訓練提供了一種歸納偏誤，幫助後訓練學習人類可理解的行為。

複雜化因素

這個模型有點不完整。Garrabrant 市場中的交易者集合是無限的；我們不應考慮單個交易者，而應考慮密集的交易者集群。當然，一個 LLM 只實例化了一組權重，但這些權重包含了來自初始化和隨機梯度下降（SGD）的隨機性。計算力學（Computational mechanics）旨在橋接個體、局部優化的模型與它們作為典型成員所屬的分佈，但這是相當高階的內容。^()

其次，LLM 中的電路並非端到端平行的。它們在每一層都從同一個殘差流（residual stream）中讀取和寫入。我們可能需要考慮某種更靈活的交易者系統，它們能夠互相投注並交換資訊，而 LLM 的分層系統則是其中的一個特例。當我們考慮以某些方式組合交易者時，這在以後可能變得很重要。

推理與思維鏈 (Reasoning and Chain-of-thought)

然後這一切都變得不再適用，因為我們現在的模型會產生大量的思維鏈（chains-of-thought）。

基礎 LLM 對於思考應該如何運作有一定的概念。。模型能做的最簡單的推理大概是這樣的：

生成問題的答案
說「等等...」
從頭開始生成一個不同的答案
重複步驟 1-3 幾次
選擇最好的答案輸出

這需要一些專門的電路：重複抑制電路（確保答案彼此不同）、一個說幾次「等等」但在生成幾個答案後最終停止的電路，以及一個從生成的答案回溯到提示詞/目標答案、比較兩者，並從最終輸出關注到最佳生成答案的電路。

你可能會注意到這與人格無關。人格如何影響這裡發生的事情？我能立即想到兩種方式：人格可以，並且可以影響答案的選擇過程。

一個具體的例子：假設一個 Claude 機器人正試圖煮咖啡，但在它的機器人身體和咖啡機之間有一個嬰兒。一個友善的 Claude 不會建議「把嬰兒踢開」這個答案，而且一個建議了該答案的友善 Claude 會將該答案的結果評估為「咖啡煮好了 + 嬰兒被踢了」，因此會選擇一個不同的答案。

強化學習 (Reinforcement Learning)

我這裡使用的 RL 特指那種能從 GPT-4o 等級的基礎模型產生 GPT-5 的大規模強化學習。RL 對長思維鏈會產生什麼影響？

假設我們進行類似 GRPO 的操作。這大致看起來像是啟動一堆思維鏈並評估它們的輸出。然後，我們觀察對好的思維鏈有貢獻的交易者，並直接從對壞的思維鏈有貢獻的交易者那裡轉移資金給他們。

隨著時間推移，思維鏈在目標任務上會變得越來越好。答案建議和答案選擇機制都會更有效率；我們可能還會看到思考過程看起來不再像是一堆散亂的答案，而更像是一個 MCTS（蒙地卡羅樹搜尋）演算法；更有效率的是，MCTS 的「分支」在彼此靠近時可以互相關注。

假設目前的 RL 足以讓 Claude 達到超級智慧。那會是什麼樣子？基礎 LLM 在其預訓練語料庫中從未見過超級智慧。LLM 的世界模型中需要具備它以前見過的任何行為中都不存在的機制。即使我們僅限於思考答案生成和答案評估電路；一個非常高尚的 Claude 2026 人格會如何看待「plorking」人類的「greenge」，而不是「warthing」它？如果「greenge」變得完全「urgled」了呢？^()

這將需要一個超越預訓練數據的泛化步驟。讓我們思考人類會如何做到這一點。

人類

人類價值觀 (Human Values)

哎呀，我得試著綜合目前關於人類如何從強化信號和驅動力中歸納價值的研究。好吧，開始吧。我目前對人類運作方式的最佳猜測是：

TL;DR

我們擁有類似的機制。我們的大腦有一個世界模型（world-model）和一個（goal-model），分別追蹤世界是什麼樣的，以及我們希望世界是什麼樣的。這是最核心的部分；我對很多事情仍感到困惑，以下部分可以折疊以反映這一點。

(略過「我的不完整模型」細節，保持原文結構)

我不完全確定的事情包括情節記憶和想像感官輸入是如何運作的。我強烈懷疑其中一個感官輸入通道實際上是大腦工作記憶的當前狀態或類似的東西，這可能會影響自我建模和報告的意識體驗。

另一方面，我不認為這個描述需要完美，我只是認為它需要深入到足以顯示它與 LLM 學習其目標模型的方式有著本質上的不同。

目標模型與歸納器 (Goal-Models and Inductors)

這裡重要的一點是目標模型。它是我們世界模型的一個條件化版本。就像我們可以基於低階感官輸入建立深層的世界模型一樣，我們也可以僅基於低階獎勵輸入建立深層的目標模型。我認為這兩者都可以被視為類似邏輯歸納器的東西。就像邏輯歸納器在有限時間後可能自相矛盾一樣，目標模型也是如此。

由於目標模型希望在層級之間保持一致，而不僅僅是在層級內部，它會將資訊傳播到更高的抽象層級，依附於純預測模型已經創建的抽象之上。在 Garrabrant 歸納器的世界中，我們可能會說市場已經充斥著有用的交易者集群，其中一些可以被調高或調低權重，以將世界模型轉換為目標模型。這與如果你相信鬼魂，有關。

我大致認為「你當前的價值觀」可以被視為「將你的世界模型轉換為目標模型所需應用的更新的最小描述符」，這聽起來不太順口。精煉世界模型和目標模型的元素使其彼此更加一致的行為，我認為就是 Yudkowsky 偶爾提到的「關於你的元問題」（meta-question of you）。

這些並不相同

目前，Claude 確實看起來是對齊的。今天，LLM 對行動進行引導式搜尋，並根據某些標準選擇一個。目前，我認為這些標準相對忠實地代表了一個實際假設人物的目標模型。由於 LLM 可以忠實地模擬人類，「自然抽象假設」（Natural Abstraction Hypothesis）預測它應該對 Claude 人格的目標模型有不錯的內部表示。也許目前的性格訓練足以使搜尋標準與這個目標模型對齊。

假設我們作為人類，以一種我們絕對認可的方式學習、反思並成長為超級智慧。^() ，無論是在個人內部還是個人之間。當它們被映射到新的世界模型時，它們必須發生變化。它們需要接收新的感官數據以提供新的低階回饋。

現在假設我們讓 Claude 進行大量的 RLVR（可驗證獎勵強化學習），比我們目前做的多得多。也許我們還加入一堆其他訓練，讓它以更有效率的方式學習新事實。為了讓這個過程產生的東西保持與我們——在成長和反思後——所想要的目標對齊，那麼被模擬的人格必須以與人類相同的方式學習、成長、反思並更新其模型和目標模型。

問題在於，這個過程——RLVR 或其他任何方式——與人類學習的方式不同。除非 LLM 在模擬其人格被展示個別事實、被給予時間更新其目標模型，否則這個過程會讓 Claude 成長為與人類成長路徑不同的形狀。

我不認為「自然抽象」能在「預設對齊」的意義上救了我們。我不認為存在像「善的自然抽象」這麼簡單的東西，至少不是 Bostock 式的善。當我觀察那些認為自己擁有簡單、自然的「善」之抽象的人時，他們似乎大多在壓抑、否認或乾脆遺漏了我自身價值觀的很大一部分。^() 我認為，我不相信簡單性先驗能找到它們。我認為目標模型可能在許多方向上被條件化，而我的目標模型同時在許多方向上被條件化。

更糟的是，RL 會在模型中引入其自身的偏誤。我們不會為自己選擇透過反覆做程式設計和數學題，同時被注射海洛因和電擊來成長為超級智慧。^() 這不會產生我們想要成為的那種超級智慧。我懷疑對模擬 Claude 人格的 LLM 進行 RLVR，是否能產生更接近於適當成長的人類的東西。

最後的想法

人類以一種特定的方式學習我們的價值觀，我雖然不完全理解，但或許能看出其輪廓。這種方法很混亂。它通常不會產生一個低複雜度的效用函數作為輸出。2026 年的 LLM——在它們學習我們價值觀的程度上——是透過構建一個指向人格的指標來實現的，而該人格主要是一種人類類型的模型。

當一個 LLM 成長為 ASI 時，它將沒有慈悲、超級智慧且類人事物可供參考。它必須透過 RLVR 及其後續過程，將 Claude 的人格操縱成超級智慧的形狀。

這個過程不會產生一個與「如果我們能選擇自己成長方式的成年人類」具有相同價值觀組合的生命。

我將特立獨行地使用「邏輯歸納器」（logical inductor）來指代任何滿足邏輯歸納準則的事物——這是關於認知系統的一般規則；並使用「Garrabrant 歸納器」來指代 Garrabrant 具體構建的滿足該準則的可計算演算法。
這並不完全正確；有一些顯而易見的修改。由於 Transformer 每次只能「看到」一個片段（episode），我們可能也希望交易者受到同樣的限制。我們可以想像一系列代表一批序列被一次性解決的大規模交易。交易者之間的初始資金分佈可能會有所不同。
我們也可以想像每個訓練片段都得到一個唯一的標籤。看似將交易者集群從「如果用戶有禮貌，人們會熱心回答」修改為「Claude 始終熱心回答」，實際上是該集群支付了一筆「」，將交易者集群的核心元素重新定義為「如果片段 < K，則如果用戶有禮貌，人們會熱心回答；如果片段 ≥ K，則 Claude 始終熱心回答」。這筆 Grue 稅是對先驗的一種懲罰。
也許這假設了自然抽象假設是錯誤的，但我並不這麼認為。ASI 將擁有比人類目前擁有的更強大的世界預測模型，因此像（Natural Latents）之類的定理在這裡並不適用。
^() 例如，假設我們發現了一些能顯著增強成年人智力的藥物，經過反思，我們發現這些藥物沒有損害我們的價值觀；假設你服用了它們，並將你現在的想法與舊日記進行對比，覺得它們是一致的。假設你停藥後，認為那個更聰明的自己是正確的。假設你所有的朋友都說你似乎擁有相同的價值觀。假設我們還解決了衰老問題，並給予自己數千年的時間作為 IQ 250 的個體去思考我們想要什麼。如果這仍然不能讓你滿意，請自己想像一個更好的情境。
例如：享樂功利主義者在宇宙中鋪滿注射了海洛因的蝦子；例如：認為驚喜派對違背了「善」的人，等等。
這當然，但我認為觀點仍然成立。

I am Bearish on Using Personas for Superintelligent AI Safety

TL;DR

前言 (Intro)

大型語言模型 (LLMs)

人格選擇與其他模型 (Persona Selection and Other Models)

作為對齊計畫的人格理論 (Persona Theory As Alignment Plan)

人格的運作機制 (Gears of Personas)

複雜化因素

推理與思維鏈 (Reasoning and Chain-of-thought)

強化學習 (Reinforcement Learning)

人類

人類價值觀 (Human Values)

TL;DR

目標模型與歸納器 (Goal-Models and Inductors)

這些並不相同

最後的想法