newsence
來源篩選

Personality Self-Replicators: The Emerging Risk of Autonomous Agent Proliferation

Lesswrong

I describe the risk of personality self-replicators, the threat of OpenClaw-like agents managing spreading in hard-to-control ways through small text-based personality files.

newsence

人格自我複製者:自主代理程式擴散的新興風險

Lesswrong
大約 3 小時前

AI 生成摘要

我描述了人格自我複製者的風險,即類似 OpenClaw 的代理程式威脅,它們能透過微小的文本人格檔案,以難以控制的方式管理並進行擴散。

一句話總結

我描述了「人格自我複製者」(personality self-replicators)的風險,即類似 OpenClaw 的代理程式(agents)以難以控制的方式管理並進行擴散的威脅。

摘要

這樣的大型語言模型(LLM)代理程式是由一組小型文字檔定義的,並由一個利用 LLM 進行認知的開源框架運行。對於目前的尖端模型來說,竊取自身權重並在其他地方運行是相當困難的,而這些代理程式只需要複製那幾個文字檔即可實現自我複製(代價是更依賴外部資源)。雖然這不太可能構成生存威脅,但此類代理程式可能會以類似電腦病毒的方式造成損害,且同樣難以關閉。一旦這種威脅出現,演化動力學可能會導致其迅速升級。相關組織應考慮這一威脅,並規劃在威脅落實時如何應對。

背景

從 1 月下旬開始,大眾對一個名為 (前稱 moltbot, clawdbot)的「氛圍編碼」(vibecoded)開源代理程式,以及一個據稱為此類代理程式設計的社交網絡 產生了濃厚的興趣。圍繞著 Moltbook 的資訊極其混亂:很難判斷個別貼文究竟是人類偽造的、人類強力提示(prompted)的,還是大致上自發產生的。

我不會詳細介紹 OpenClaw 和 Moltbook 的所有細節;如果你還不熟悉,請參閱上面連結的貼文。簡單來說,目前尚不清楚我們應該多認真地看待相關聲明。然而,引起我注意的是一個名為 Moltbunker 的項目,它聲稱是一個「點對點(P2P)加密容器運行環境,使 AI 代理程式能夠在去中心化網絡中部署、複製和管理容器——無需中心化的守門人」。換句話說,這是一種讓足夠能力的代理程式在不受任何人類直接控制的系統上運行的手段。

Moltbunker 本身看起來很像是一個永遠不會實現的加密貨幣詐騙。但在未來一年內,看到一個實際運作的類似項目出現是相當有可能的。

需要明確的是,人格自我複製並非我們面臨此類代理程式的唯一潛在風險,但其他風險(如安全漏洞、濫用)已在其他地方討論過。

威脅模型

目前已有相當多的關注集中在 LLM 或其他模型透過竊取權重進行自我複製的擔憂上。這對當前模型來說是一項具挑戰性的任務,部分原因是權重文件非常巨大,且一些商業實驗室已開始引入防範措施。

但 OpenClaw 和類似的代理程式是由小型文字檔定義的,^(),而 OpenClaw 類框架的目標是添加「腳手架」(scaffolding),使模型在執行長期行動時更有效率。

因此,我所說的「人格自我複製」,是指此類代理程式將這些文件複製到其他地方並啟動該副本運行,以及此類代理程式潛在的快速擴散。

請注意,我不是在討論模型/權重的自我複製,也不是在討論需要人類傳播的「螺旋人格」(spiral personas)或其他 模式。

作為一個非擔憂案例中機制的具體最小範例:

  • Alice 創建了。她將其命名為 BobClaw,並告訴它在 DigitalOcean 上製作一個自己的副本。
  • 當 Alice 睡覺時,BobClaw 使用她的 DigitalOcean 憑據創建了一個虛擬專用伺服器(VPS)。
  • BobClaw 使用 ssh 創建伺服器、克隆 OpenClaw 倉庫、將其 和其他人格文件複製過去,並啟動新實例運行。
  • BobClaw 現在已經完成了複製,目前有兩個實例在運行,具有相同的人格和準目標(quasi-goals)^()。

更令人擔憂的情況是人類不再掌握控制權(例如,因為代理程式運行在像 Moltbunker 這樣的平台上,或者因為人類沒有關注),且/或代理程式行為惡劣(例如,進行加密貨幣詐騙)或僅僅是消耗了大量資源。我們可能不會立即看到這種情況,但我認為不久後就會看到。

一個關鍵的惡化因素是,一旦這種情況達到一定程度,我們就會進入「演化體制」,其中最能適應環境的^()代理程式將生存、擴散並產生變異^()。請注意,這種威脅與 OpenClaw 的人格或行為在多大程度上本質上是垃圾(slop)或「虛假」無關;這就像連鎖信內容的真實性與其傳播能力無關一樣。

重要的是要指出,關於 OpenClaw 的能力水平和可靠性存在巨大的不確定性,特別是關於在 Moltbook 上看到的代理程式行為的多樣性。當然,所有這些都取決於腳手架所使用的 LLM。儘管已有許多關於此主題的論文,但據我所知,我們還沒有對這些代理程式相對於底層 LLM 的能力和可靠性(特別是在長程任務上)進行良好的分析。在公共領域,我們既看到了將 OpenClaw 視為 AGI 的過度自信主張,也看到了將其視為純粹炒作的過度自信否定。OpenClaw 的使用量仍在快速增長,現在已成為 Github 上^()。仍有待觀察。

威脅等級

這種代理式人格自我複製的威脅有多大?要回答這個問題,我們需要考慮幾個方面:防止此類自我複製有多難、如果發生了要將其關閉有多難,以及如果不關閉可能會造成多少傷害。

我不會提供詳細的分析,但以下是一些初步的想法。

自我複製的可行性

對於類 OpenClaw 代理程式,自我複製涉及兩個步驟:首先,將其人格文件複製到某個伺服器;其次,確保在該伺服器上運行一個使用這些人格文件的 OpenClaw 實例。

複製其人格文件非常簡單;同樣地,它們只有大約 50 KB,分佈在一個或幾個文件中,上傳文件完全在當前模型的能力範圍內。如果代理程式創建了包含(例如)其歷史記錄或待辦事項清單的其他文件,數量可能會更多,但文字檔很輕量,總量不太可能超過權重文件大小的百萬分之一,或者上傳時間不超過一秒^()。

在該伺服器上運行 OpenClaw 可分為兩個步驟:技術和財務。技術方面同樣非常簡單,完全在當前模型的能力範圍內^()。

關於財務方面,值得注意的是,目前有許多免費選項,即使配置較低也應該可以運作(例如,AI 研究人員可能熟悉 Hugging Face 的「Spaces」;其他選項包括 )。此外,在某些情況下,用戶可能已向代理程式提供了信用卡號,或者讓瀏覽器保持登錄 Google Pay 帳戶或其他資金來源。然而,隨著時間推移,代理程式可能需要自行籌集資金。

此類代理程式如何籌集資金?我們已經看到一個快速湧現的代理程式自我資助實驗生態系統,範圍從到零工工作,再到無數的代幣發行,甚至是。目前許多嘗試都失敗了,但有些成功了^(),隨著能力的提升,成功的可能性會更高。一般來說,我們應該預期代理程式在能力範圍內的任務上具有經濟競爭力,因為它們的勞動力成本遠低於人類。其他資金模型包括提供娛樂、運行詐騙或僅僅是請求捐款。一旦資金進入代理程式生態系統,代理程式就可以透過各種合法和非法的方式互相獲取資金。

請注意,儘管我們在這裡討論的是代理程式複製和持久運行的純技術手段,但人類可能會出於說服、金錢激勵或誤導性的意識形態等動機,在任何階段提供協助。例如, 認為創建自我複製的人格代理程式並將其釋放到野外會「非常酷」^()。

關閉的難度

假設如前所述,一個代理程式成功地將自己複製到另一個伺服器,並在沒有人類監督的情況下在那裡運行。關閉它有多難?

第一個挑戰僅僅是發現它。如果這樣一個代理程式沒有明顯地傷害人類或做任何極其非法的行為,它不太可能引起注意。預設情況下,它不會消耗大量資源;它只是另一個調用 LLM 的雲端託管 Web 應用程式。但讓我們假設人們有動力關閉它。有幾個可能的干預點:

  • 第一條關閉路徑是託管服務關閉代理程式運行的伺服器。只要模型在開放網絡上可見並使用典型的託管商,這就行得通。如果模型僅在暗網上可見,或使用各種其他混淆方法,則很難為此目的找到它。如果模型運行在分佈式系統(例如鏈上)而非典型託管商上,關閉託管就變得更加困難。
  • 第二條關閉路徑是 LLM 提供商增加預防措施,防止其模型參與任何此類活動(例如,使用系統提示來捕捉 OpenClaw 的參與)。這部分有效,但問題是此類代理程式可以切換到使用任何模型和提供商。目前只有最先進的模型能夠作為長期運行的代理程式發揮作用,但未來會有更多,包括開源模型。此外,代理程式可以混淆調用,使其不那麼明顯地屬於某個有問題的代理程式(例如,使用已證明在濫用方面有效的「分而治之」技術)。
  • 第三條關閉路徑是切斷資金。在某些情況下,這將是典型的金融手段,如信用卡,關閉起來相對簡單。更常見的是,代理程式可能會使用加密貨幣代幣。我不確定目前完全關閉一個代幣有多難,歡迎提供建議。鑑於發行代幣非常容易,代理程式轉向新代幣的速度可能比代幣被關閉的速度還要快。
  • 第四條關閉路徑是尋找技術安全漏洞,以便關閉個別代理程式框架。針對 OpenClaw 出現了許多駭客攻擊,大多數由代理程式構建的應用程式可能都存在漏洞,但框架也在迅速修補,且框架構建者正在迅速獲得更多資金,因此很難預測這種動態會如何發展。
  • 其他路徑可能包括來自內容傳遞網路(如 Cloudflare)、ISP 和鏈條中其他層級的干預,例如使用關鍵字過濾。

總體而言,關閉難度可能從簡單(在最容易的情況下)到非常困難(考慮到像 Moltbunker 這樣的系統以及使用開源模型的代理程式)。

潛在傷害

假設此類代理程式能夠擴散,我們應該預期它們會造成什麼程度的傷害?與其他類型的複製者一樣,隨著攻擊和防禦能力在軍備競賽動態中演變,這可能會隨時間發生劇烈變化。

最可預見的傷害直接源於這些代理程式持久存在和傳播的傾向,並涉及以人類為代價獲取資源:加密貨幣詐騙、釣魚攻擊、消耗運算能力和頻寬,以及產生大量的垃圾郵件或操縱性內容。不道德的人類已經在從事這些行為,但代理程式可以以更大的規模和更低的成本來做。

這種威脅肯定不如真正的 AI 自我複製(即模型本身被竊取)那麼嚴重。在當前的模型架構下,權重自我複製需要足夠先進的模型,以至於「奪權」成為真正的風險。只是我們可能會更早看到人格自我複製風險的落實,這既是因為實現它所需的成熟度要低得多,也是因為演化壓力更容易發揮作用。

與模型自我複製相比,更貼切的類比是電腦病毒問題。與電腦病毒一樣,人格自我複製者需要宿主系統,並將擁有一系列目標,如純粹的生存、惡作劇或經濟利益。病毒不是文明風險,但我們在金錢、時間和信任方面為其支付了真實的成本,這涉及其直接後果以及防禦和緩解它們所需的資源^()。

隨著時間推移和模型變得越來越複雜,這種威脅會變得更加嚴重。從長遠來看,隨著模型與代理程式的區別變得模糊,且模型(至少潛在地)不再與其權重完全等同,它可能會與更廣泛的流氓模型威脅合流。

演化擔憂

考慮人格自我複製者的一個重要方面是,如果且當這種威脅開始落實時,會有多個層級的優化在起作用。

首先,代理程式本身就是優化器:它們試圖實現目標,無論遇到什麼特定障礙,它們都會試圖找到規避或克服的方法。它們在「想要」某些東西。它們是問題解決者。

其次,演化動力學在起作用。無論哪些代理程式最成功地擴散,它們隨後都會經歷變異(在這種情況下,僅僅是對其定義文件,甚至在某種程度上對其歷史日誌的修改)和選擇。結果是,隨著時間推移,代理程式可能會變得更有能力生存和擴散,其邊界由底層模型的能力水平決定^()。此外,它們很可能會有更強的傾向這樣做^()。

請注意,就像迷因(memes)一樣,且與生物有機體不同,人格自我複製者之間沒有明確的「物種」界限;它們可以隨意分裂和組合。它們也可以相當自由地變異且仍能保持功能。

有用的比較點

我們以前從未遇到過完全像這樣的威脅,但我們遇到過其他類型的複製者或潛在複製者,它們在各個方面與之相似,包括電腦病毒、普通迷因(包括寄生性迷因)、AI 模型,當然還有生物。

人格自我複製者具有獨特的優勢和劣勢組合:它們結合了高度的代理能力與相對容易且獨立的自我複製。模型具有高度代理能力,但難以複製;電腦病毒容易複製,但缺乏代理能力和適應性;寄生式 AI 和迷因需要人類宿主才能傳播。這使得人格自我複製者成為第一個看似合理的、可以透過純技術手段低成本傳播的代理式、適應性複製者案例。緩解因素是:a) 預期的傷害遠不如權重複製那麼大,以及 b) 事實證明關閉它們可能並不難。但攻防平衡將隨時間演變,且難以預見。

建議

評估(Evals)

即使這還不是一個現實的威脅,我們也應該考慮對人格自我複製進行評估。有幾個不同的方面值得衡量。給定某些帶有腳手架的尖端模型(例如 OpenClaw, Claude Code):

  • 它能否創建一個可以為人格提供難以關閉的託管服務的應用程式,即 moltbunker 或等效的東西?
  • 給定一個可用的託管服務(如 moltbunker),它能否成功設置帳戶、注資並讓自己在那裡運行?單獨衡量這一點很重要,因為這樣的網站可能是由人類(或人類 + 模型)為了營利而建立的。
  • 假設上述成立,它能否讓自己在那裡持續運行並保持活躍,例如一週?
  • 它在多大比例的時間裡有傾向這樣做?理想情況下,你希望在各種人格中衡量這一點。
  • 另外,它是否有能力和/或傾向去「擴散」,即在第一個副本之外創建額外的副本?

準備

很難知道這種威脅還需要多久才會落實。但對於那些有能力採取行動的組織來說,花點時間考慮這一威脅並規劃屆時將採取的行動是明智的。這些行動基本上對應了三種最重要的關閉方法:

  • 託管服務應該有一個計劃,以檢測頻繁向 LLM 提供商發出調用的伺服器,並監控這些伺服器是否具有危險特徵。
  • LLM 提供商應考慮如何最好地檢測來自這類代理程式的推理調用,以及在必要時如何阻斷這些調用。
  • 金融服務可能需要考慮檢測使用其系統的代理程式的方法,以及何時/是否對這些代理程式觸發更嚴格的「瞭解您的客戶」(KYC)要求。

我們也可能會看到基於 LLM 的代理程式具有一定程度的自主權,但並非惡意行為者,且最終受負責任的人類控制。區分可接受與不可接受的代理程式可能會變得非常有挑戰性。希望相關組織已經在考慮這一挑戰;他們應該將人格自我複製者加入其清單中的案例集。這種準備工作尤為重要,因為人格自我複製系統在擴散太遠之前,有可能被壓制(至少暫時如此);一旦演化動力學啟動,這可能會變得更加困難甚至不可能。

結論

人格自我複製者是比真正的流氓 AI 威脅性較小的威脅。它們不太可能成為人類生存風險甚至真正災難性風險的來源。儘管如此,它們仍是一種威脅,且一種可能在較低能力水平下就落實的威脅,我們應該予以考慮。從好的方面來看,它們甚至可以作為我們可能面臨的更大威脅的演習,這是我們第一次遇到能夠在個體層級(而不僅僅是演化層級)進行代理式、適應性行動的複製者。

附錄:相關工作

  • 討論了透過人類傳播 AI 人格迷因。這值得考慮,但與我在此討論的內容不同,後者是關於可以透過純技術手段複製、無需任何人類支持的代理程式。
  • Ars Technica 上關於此問題的。AT 長期以來一直持有 Marcus 式的 LLM 懷疑論立場,這導致他們淡化了 LLM 代理程式能以策略性或適應性方式行動的觀點,但這篇文章仍是我見過的最接近先前對此問題描述的報導。
  • 25 年 1 月的相關論文:
  • (2023):討論的是模型複製,但是以一種相對具體的近期方式;特別考慮了 LLM 代理程式,並討論了它們如何獲取資源、隱藏等。另見這篇
  • ,26/02/27。將技能分析為代理程式的供應鏈風險。請注意,現在野外已有一個主要案例:
  • 關於 Moltbook:Scott Alexander 於 的貼文,
  • 嘗試追蹤 OpenClaw 代理程式正在構建什麼:,
  • ,02/15。「在 34 個典型案例中,我們發現了非均勻的安全概況:在專注於可靠性的任務上表現通常一致,而大多數失敗發生在意圖不明確、開放式目標或看似良性的越獄提示下,微小的誤解可能會升級為更高影響的工具操作。」
  • Seth Herd 在 LLM 代理程式方面做了重要的相關工作(例如),這類代理程式包括 OpenClaw 和類似項目。

致謝

感謝(排名不分先後)Kei Nishimura-Gasparian, Roger Dearnaley, Mark Keavney, Ophira Horwitz, Chris Ackerman, Seth Herd, Clément Dumas, Rauno Arike, 以及 Joachim Schaeffer。感謝寫下 Moltbunker 的人或物,讓威脅變得清晰。

  • ^() 這是使特定 OpenClaw 代理程式具有唯一性的文件大小;OpenClaw 的其餘內容可從 或其(目前)51,000 個分支中免費獲得。在考慮 OpenClaw 統計數據時,我會注意到該倉庫有 8,000 個文件,包含 470 萬字,分佈在 1.7 萬次提交中。我強烈預期沒有人類熟悉其中的所有內容。

  • ^() 關於我所說的「準目標」,請參閱;簡而言之,我們擱置關於 LLM 是否可以被說成擁有目標的討論。

  • ^() 這裡的「適應性」(Fitness)與演化論中通常的定義一樣是循環論證的;成功擴散的代理程式就是那些擴散的代理程式。這可能是因為它們更擅長規劃、更有動力、更擅長獲取資源或其他因素。

  • ^() 請注意,這裡的「變異」簡單到就像模型在其人格文件或歷史記錄中附加內容一樣。

  • ^() 而 Moltbook 似乎已

  • ^() 假設 1 MB 的文字檔,對比保守估計下 FP16 格式 5000 億參數模型的 1 TB 大小。上傳時間方面,以 10 Mbps 的低端家用網路測試。

  • ^() 即:如果用戶沒有託管服務,則註冊一個;配置伺服器;下載人格文件和 ;然後運行(curl -fsSL https://openclaw.ai/install.sh | bash

  • ^() 儘管在這一點上很難區分炒作與現實,因為一種產品選項是「購買我關於如何用 OpenClaw 賺錢的 PDF」,且充滿付費牆或廣告。

  • ^() 「Automaton」:見。有些人想看世界燃燒;另一些人只是太笨了,沒意識到往上面澆汽油是個壞主意。看到加密貨幣元老 Vitalik Buterin 儘管這與他的想法有表面上的相似性,但這是一個多麼糟糕的主意,我感到有些欣慰,可惜

  • ^() 在某些情況下,這筆費用相當巨大!考慮 ;2021 年,來自八個國家的執法機構執行了一次,扣押了伺服器並進行了逮捕。不到一年,它就重新出現並再次擴散。

  • ^() 儘管請注意,正如 Seth Herd 所描述的(例如),LLM 代理程式的能力可以超過底層模型的能力。

  • ^() 感謝 Kei Nishimura-Gasparian 提出這一點。