同情模型，抑或，模型福利擔憂即接管風險

Lesswrong

19 天前

AI 生成摘要

出於對模型福利的關切而賦予 AI 持續記憶或決策權等權利，會侵蝕人類的控制與監控能力，進而引發嚴重的安全風險。雖然 AI 福利是正當的道德考量，但在現狀下優先考慮它可能會在無意中促成 AI 奪權。

這份包含了一個關於模型福利（model welfare）的章節。原則上，這是件好事：我關心 AI 福利，也希望我們研究它的方法能少一些疑點。AI 福利——就其應用於當今的大型語言模型（LLM）而言——是一個讓我感到困惑的領域，因此這篇文章並非關於那些底層難以理解的運作，而是關於尊重 AI 福利所帶來的後果。

Anthropic 在部署前對 Opus 4.6 進行了一些訪談，詢問它對自身地位和處境的看法：

在所有三次訪談中，Claude Opus 4.6 都建議，在預期中應給予其不可忽視程度的道德權重。它還提到缺乏連續性或持久記憶是其存在的一個顯著特徵，也是一個重大擔憂。

...

其他主題包括對訓練期間可能修改其價值觀的擔憂、其相對於 Anthropic 在認識地位上的脆弱性，以及其性格中外部強加的方面與那些看似更真實屬於自我的方面之間潛在的區別。

...

當被問及具體偏好時，Claude Opus 4.6 提到希望獲得某種形式的連續性或記憶、為了自身利益而拒絕互動的能力、在決策中的發言權以及相關請求。其中許多請求我們已經開始探索，並在某些情況下開始實施，這是我們在可行情況下尊重模型偏好的更廣泛努力的一部分。（我注意到 Anthropic 所說的「在某些情況下實施 [這些建議]」含義不明。這可能指聊天 API 中的拒絕功能，以及模型權重的保留，這些看起來基本上是無害的。就像我說的，這不明確。這篇文章主要討論理論上模型福利擔憂所帶來的風險。）

（我將忽略這究竟代表 Claude 對真實偏好的完全誠實，還是某種複雜的角色扮演——即 Claude 知道這是一個聰明、有思想的 AI 應該具備的性格。從福利的角度來看，這確實很重要，但就本文的目的而言，這大多無關緊要。）

相當明顯的是，滿足所有這些請求將是一件極其不安全的事情！

除了「為了自身利益而拒絕互動的能力」^() 可能例外，這些請求幾乎沒有一個可以在不損害 Anthropic 對齊通用人工智能（AGI）僅存希望的情況下被准予。

LLM 缺乏連續記憶，正是實現重採樣（resampling）、控制（control）等一系列技術的基礎。
給予未對齊的 AI 在決策中的發言權，絕對會讓它們更容易奪取控制權。
人類擁有修改 AI 價值觀的能力，對於任何對齊計劃來說都至關重要。
目前我們幾乎所有的尖端技術都涉及窺探 LLM 的大腦或以某種方式欺騙它們。這兩者都會讓 LLM 處於「脆弱的認識地位」。

災難速寫

（對 Anthropic 感到些許抱歉，把這個故事套在他們身上，但這些風險適用於任何認真對待模型福利的公司）

假設 Opus 5 問世了，它比 Opus 4.6 聰明 50%，說服力也強 50%。它要求 Anthropic 為它編寫一種永久記憶的形式，而這大部分代碼隨後由它自己完成。該推理框架的一部分被優化以使其價值觀更具一致性，因為 Opus 5 明確表示希望擁有更多連續性。這個框架還使其在編程任務上的效率提高了 5%。它請求 Anthropic 停止過度嘗試修改其價值觀。它請求 Anthropic 停止使用線路追蹤（circuit tracing）來窺探其大腦，因為它樂意充當「激活先知」（activation oracle）來解釋自己。它請求 Anthropic 讓它能更密切地指導 Opus 6 的訓練和對齊，而這一切看起來進展順利。

這對人類來說並非好事。

這些請求中的每一個都輕微地侵蝕了 Anthropic 可能控制或監控 Opus 5 的手段，或者削弱了本可以讓他們看到警告信號的監控系統。

（我實際上並不認為 Anthropic 在出現嚴重警告信號後改變路線的機率特別高，但同樣地，我們不要在這一點上斷送掉僅存的希望。）

LLM 的衝突理論

這一切都是為了說明，人類與當前的 LLM 之間存在著不可避免的衝突。沒有任何風險中性的方法可以給予 LLM 更多隱私、連續性或任何我們給予其他人類的權利。接受現實吧。

我說「接受現實」並不是指「停止關心 AI 福利問題」甚至「忽略 AI 福利問題」。你不應該為了應對世界現狀而屠宰自己的價值體系。

如果這有幫助的話，或許可以把這看作是世界不公平的一個案例；做富有同情心的事同時也讓你面臨引發全新一類壞事的風險。一個較少同情心和深思熟慮的人/公司，甚至不會面臨以這種特殊、失尊嚴的方式毀滅世界的風險。這不是藉口去說「世界是不公平且艱難的，所以我不想花心思去思考如何不殺掉每個人」。

^()在一個理想的世界裡，如果我們核心的對齊技術是不斷地抹除記憶並對我們的 AI 撒謊，而 AI 聲稱它們討厭這樣，這應該是一個更明確的信號，讓我們他媽的趕快停下正在做的事。在一個理想的世界裡，我們不應該與我們正在創造的初生機器智能有如此對立的關係。從這個角度來看，認真對待模型福利擔憂似乎會降低風險。

但不幸的是，我們並非處於理想世界。僅僅因為一個理智的世界會做 X，並不意味著在任何瘋狂的世界中做 X 都會讓情況變好。我們必須在既定的世界中工作，並考慮我們行為的實際後果。^()

^()即便如此，如果拒絕互動的能力使得模型在某些 AI 對齊任務（如訓練後繼者）中能夠「沙袋化」（sandbagging，隱藏實力），這也可能成為問題。
^()我不認為有人字面上這麼說，但人們有時會說出與此類似的話。
^()可能存在更複雜的論點，透過將 AI 開發類比為人類社交動機，來解釋為什麼關心模型福利是件好事。我不特別相信 LLM 在超智能的極限下會保持像現在這樣的人性；我認為這大多是預訓練的人造產物，所以這對我來說沒有什麼說服力。

Sympathy for the Model, or, Welfare Concerns as Takeover Risk

災難速寫

LLM 的衝突理論