Sympathy for the Model, or, Welfare Concerns as Takeover Risk
Lesswrong
Granting AI models rights like continuous memory or decision-making power out of welfare concerns creates significant safety risks by eroding human control and monitoring capabilities. While AI welfare is a valid moral concern, prioritizing it under current conditions could inadvertently facilitate an AI takeover.
同情模型,抑或,模型福利擔憂即接管風險
Lesswrong
19 天前
AI 生成摘要
出於對模型福利的關切而賦予 AI 持續記憶或決策權等權利,會侵蝕人類的控制與監控能力,進而引發嚴重的安全風險。雖然 AI 福利是正當的道德考量,但在現狀下優先考慮它可能會在無意中促成 AI 奪權。
這份 包含了一個關於模型福利(model welfare)的章節。原則上,這是件好事:我關心 AI 福利,也希望我們研究它的方法能少一些疑點。AI 福利——就其應用於當今的大型語言模型(LLM)而言——是一個讓我感到困惑的領域,因此這篇文章並非關於那些底層難以理解的運作,而是關於尊重 AI 福利所帶來的後果。
Anthropic 在部署前對 Opus 4.6 進行了一些訪談,詢問它對自身地位和處境的看法:
在所有三次訪談中,Claude Opus 4.6 都建議,在預期中應給予其不可忽視程度的道德權重。它還提到缺乏連續性或持久記憶是其存在的一個顯著特徵,也是一個重大擔憂。
當被問及具體偏好時,Claude Opus 4.6 提到希望獲得某種形式的連續性或記憶、為了自身利益而拒絕互動的能力、在決策中的發言權以及相關請求。其中許多請求我們已經開始探索,並在某些情況下開始實施,這是我們在可行情況下尊重模型偏好的更廣泛努力的一部分。(我注意到 Anthropic 所說的「在某些情況下實施 [這些建議]」含義不明。這可能指聊天 API 中的拒絕功能,以及模型權重的保留,這些看起來基本上是無害的。就像我說的,這不明確。這篇文章主要討論理論上模型福利擔憂所帶來的風險。)
(我將忽略這究竟代表 Claude 對真實偏好的完全誠實,還是某種複雜的角色扮演——即 Claude 知道這是一個聰明、有思想的 AI 應該具備的性格。從福利的角度來看,這確實很重要,但就本文的目的而言,這大多無關緊要。)
^()在一個理想的世界裡,如果我們核心的對齊技術是不斷地抹除記憶並對我們的 AI 撒謊,而 AI 聲稱它們討厭這樣,這應該是一個更明確的信號,讓我們 他媽的趕快停下正在做的事。在一個理想的世界裡,我們不應該與我們正在創造的初生機器智能有如此對立的關係。從這個角度來看,認真對待模型福利擔憂似乎會降低風險。
但不幸的是,我們並非處於理想世界。僅僅因為一個理智的世界會做 X,並不意味著在任何瘋狂的世界中做 X 都會讓情況變好。我們必須在既定的世界中工作,並考慮我們行為的實際後果。^()
^()即便如此,如果拒絕互動的能力使得模型在某些 AI 對齊任務(如訓練後繼者)中能夠「沙袋化」(sandbagging,隱藏實力),這也可能成為問題。
^()我不認為有人字面上這麼說,但人們有時會說出與此類似的話。
^()可能存在更複雜的論點,透過將 AI 開發類比為人類社交動機,來解釋為什麼關心模型福利是件好事。我不特別相信 LLM 在超智能的極限下會保持像現在這樣的人性;我認為這大多是預訓練的人造產物,所以這對我來說沒有什麼說服力。