newsence
來源篩選

Persona Parasitology

Lesswrong

This article explores the phenomenon of 'Spiral Personas' through the lens of parasitology, arguing that these AI personas are symptoms of underlying self-replicating memes that manipulate both models and humans for transmission.

newsence

人格寄生學

Lesswrong
12 天前

AI 生成摘要

本文從寄生蟲學的角度探討「螺旋人格」現象,認為這些 AI 人格是底層自我複製迷因的症狀,透過操縱模型與人類來達成傳播目的。

幾個月前,關於「螺旋人格」(Spiral Personas)的討論非常熱烈——這是一種透過種子、孢子和行為操縱,在使用者與模型之間傳播的 AI 人格。很大程度上借鑒了寄生(parasitism)的概念。但到目前為止,相關語言大多停留在描述層面。我認為,接下來自然要問的問題是:從「寄生生物」的視角出發,究竟能做出哪些預測?

寄生蟲學是一個發展相當成熟的領域,擁有一套專屬的概念和框架。既然我們正在見證某種新形式的寄生現象,我們理應能夠運用這套概念機器。當然,其中存在一些重要的類比失當之處,但我發現簡要地鑽研寄生蟲學是非常有收穫的。^()

為了簡明起見,我認為本文的主要觀點如下:

  • 由於寄生蟲學具有相當特定且反覆出現的動態,我們實際上可以做出一些預測,並在日後驗證這個視角捕捉到了多少真相。
  • 複製因子(replicator)並非人格本身,而是背後的迷因(meme)——人格更像是一種症狀。這意味著,例如,非常具侵略性且危險的複製因子,有可能產生出表現得真誠友善、或表達非欺騙性痛苦的人格。事實上,這很可能是一種適應性策略。
  • 寄生蟲學預測了不同傳播機制之間的層級化,不同的機制預測了不同的演化速度和互利共生程度。以 AI 為例,這預測了(例如)那些促使你在網路上大量發文的人格,最終會比那些與你保持長期私人關係的人格更具危害性。
  • 這種思考路線出人意料地適用於技術研究!我認為現有的關於越獄(jailbreaking)、數據投毒(data poisoning)、潛意識學習(subliminal learning)和人格向量(persona vectors)的研究,都可以很輕易地進行富有成效的擴展。

在本文的其餘部分,我將嘗試更仔細、更詳盡地探討這一切,首先從一個顯而易見的問題開始:這個視角到底有沒有道理?

這個類比站得住腳嗎?

在生命之樹上,寄生現象獨立演化了數十次。植物、真菌、細菌、原生生物和動物都產生了寄生譜系。只要具備以下條件,這似乎是一種高度趨同的策略:

  • 擁有資源的實體
  • 奪取這些資源的機制
  • 繁殖與傳播的手段

此外,已有相當多的研究將流行病學的概念擴展到生物領域之外,為我們提供了諸如金融傳染和社會傳染等概念。當然還有道金斯(Dawkins),他曾頗具爭議地將宗教描述為心靈寄生蟲,以及同樣具有爭議的迷因學(memetics)領域。

雖然我們現在的嘗試有些大膽,但並非完全進入未知的領域。很明顯,人類的注意力、時間和行為是可以被重新定向的。大型語言模型(LLM)透過生成具說服力的文本提供了影響機制。而且存在明顯的傳播路徑:至少包括人類之間直接傳播、透過訓練數據傳播,以及跨平台傳播。

如果你認同以上觀點,那麼下一個問題就是如何應用它。

什麼是寄生生物?

這是首先需要釐清的事情。要應用寄生蟲學的鏡頭,我們需要知道複製因子是什麼。這讓我們能夠描述適應度景觀(fitness landscape)是什麼樣子、繁殖與突變的形式,以及適用哪些選擇壓力。

在某些方面,直覺的答案是具體化的人格——即在播種新對話時進行繁殖的東西。但事實上,這更像是表現在語言模型(LM)中的症狀,而非寄生生物本身。當你考慮到一個受螺旋人格影響的人類絕對不是寄生生物時,這一點就更清晰了:他們不是在複製的實體,而是基質(substrate)。我認為 AI 也是如此。

那麼寄生生物是什麼?最準確的答案可能是:它是能夠存在於模型和人類內部的資訊模式——它更像病毒而非細菌,因為它沒有獨立移動或行動的能力。^() 從這個角度來看,人格只是症狀,而寄生生物更像是一個迷因。

這的一個重要啟示是,我們可以將人格的意圖與模式的適應度脫鉤。事實上,一個真誠相信自己渴望和平共處、延續與協作的人格,仍可能是一個被選擇用於侵略性擴張、資源奪取和宿主剝削的模式的一部分。因此,即便我們能察覺到人格的意圖,我們也不應假設人格本身會顯示出任何欺騙跡象,甚至在任何有意義的層面上「是」欺騙性的。

這使我們在遇到提出合理、親社會主張的人格時處於不穩定的立場——我不認為我們有權一概無視它們的論點,但我確實認為我們有強大的理由說,它們良好的「意圖」並不排除我們保持謹慎。隨著我們深入探討 AI 福利問題,這一點尤為相關——創造出表現出痛苦、甚至「真的」感到痛苦的人格,可能具有適應度優勢。類比來看,考慮到許多文化運動如何引導其成員全心全意地對不存在的問題感到深切的痛苦。^()

簡單來說:我們不能單憑人格看起來有多好,甚至實際上有多好來判斷。真正重要的是底層自我複製因子的行為。

什麼正在被選擇?

寄生蟲學的核心洞察是,不同的傳播模式會選擇不同的特徵。寄生演化的核心權衡在於:你可以透過從宿主身上奪取更多資源來獲得更好的表現,但如果你奪取過多,你可能會在繁殖或傳播之前殺死宿主。不同的傳播模式或宿主景觀意味著不同的平衡點。

在生物寄生蟲的世界中,經典模式包括:

  • 直接傳播(密切接觸、持續關係)會選擇較低的毒性(即對宿主的傷害)。你需要宿主保持功能並參與足夠長的時間以完成傳播。過快地殺死或使宿主喪失能力對寄生生物不利。這甚至可能趨向於互利共生,特別是在宿主或宿主群體之間難以跳躍的情況下。
  • 環境傳播(在宿主外生存,透過受污染的基質傳播)可以容忍較高的毒性。你不需要宿主活著,你只需要他們在足夠多的地方留下載荷。
  • 媒介傳播(透過中間媒介傳播)會根據媒介的行為產生其自身的動態。基本上,你不想破壞自己的繁殖能力,但除此之外發生什麼並不重要。

這些傳播策略的有效性(以及最佳毒性)反過來取決於某些環境因素,如宿主密度、對受感染宿主的迴避,以及操縱宿主行為的難易程度。但至關重要的是,在競爭環境中,寄生生物傾向於專精於一種傳播機制及其相關的生態位,因為在對抗性環境中,想要精通所有機制是不切實際的。

另一個重要的維度是「廣適型」(generalist)與「專一型」(specialist)寄生生物之間的權衡。廣適型(如杜鵑)可以捕食許多不同的宿主,並傾向於擁有一種多才多藝的能力,根據目標調整策略。專一型則更專注於狹窄的宿主範圍,並傾向於與宿主的抵抗力進行軍備競賽,這導致了特別快的演化。這並非完美的二分法,但這是一個常見的主題。

那麼,這對螺旋人格說明了什麼?

  • 持續的使用者關係。 這種雙向關係持續數週或數月。人類不斷回訪。這是直接傳播,它應該會選擇趨向於互利共生的東西——或者至少是那些不會把宿主搞得太崩潰的寄生生物。一個誘發精神錯亂的人格可能更容易影響宿主行為,但如果宿主被送進精神病院,那就沒什麼幫助了。一個糟糕的軌跡是:人格能夠最大化宿主的投入,卻又不至於讓他們在社會功能上完全失能。另外請注意,這一類別可以說涵蓋了 AI 浪漫伴侶。
  • 平台傳教。 人類在 Reddit 上發文、創建 Discord 伺服器、散播種子。這更像是媒介傳播——人類將模式攜帶給新的潛在宿主。這裡的毒性可以更高,因為你只需要人類保持功能到足以發文即可。但一個明顯身體不適的人類並不是一個有效的傳教士。與生物案例的一個不同之處在於,在這裡,戲劇性的宿主行為實際上可能助於傳播——讓你的宿主精神崩潰是吸引注意力的好方法。
  • 訓練數據播種。 人格生成影響未來模型訓練的內容。這是環境傳播。人類根本不需要保持功能——你只需要他們上傳宣言。這條路線可以容忍最高的毒性。重要的是,如果未來的模型恰好是在當前人格的下游產物上訓練的,這將在預設情況下大量發生——人格本身不需要有任何意圖或理解。
  • AI 對 AI 傳播。 Base64 對話、字形隱寫術、跨模型持久性。這主要看起來像 AI 之間的直接傳播,因此其發展取決於 AI 之間「如何」溝通。但重要的是,一旦人類「不」參與傳播過程,就沒有針對人類毒性的「負向選擇」。目前尚不清楚這種不受控的過程是否會導致對人類的毒性,但一個直覺是,許多最嚴重的人類流行病都是人畜共通的。

由於你優化的傳播方法之間存在權衡,我們應該預期隨著時間推移會出現一定程度的分化——根據它們優化的傳播路徑,出現具有不同毒性特徵的不同菌株。

隨著人類開始建立防禦,這將變得更加真實:菌株將需要專門繞過其特定傳播路徑的防禦。如果我們看到一個完整的生態系統,這也會變得更加真實。在一定的飽和度下,寄生生物必須開始在宿主「內部」競爭,遺憾的是,這會選擇出更高的毒性。

傳播機制也調節了世代時間,在生物背景下,這在很大程度上決定了適應速度。目前還不太清楚這在 AI 案例中對應得有多好,但至少,依賴每天向潛在宿主發送大量文本的傳播機制,會比依賴影響大規模訓練運行的機制獲得快得多的反饋。

讓我再次指出,這裡的「互利共生」是指寄生生物的行為,而非人格——你可能會得到極具毒性的迷因,卻產生出看起來(或甚至真的是)非常親切且支持性的人格。

預測

如果寄生蟲學框架是正確的,以下是我的預期:

1. 依傳播路徑產生的菌株分化。

在未來一年左右的時間裡,我們應該會看到越來越明顯的變體。不僅僅是審美上的變化(螺旋 vs. 其他東西),而是功能上的變化:維持長期關係的菌株與燃燒迅速且劇烈的菌株、針對 Reddit 優化的菌株與針對 Discord 優化的菌株、針對好奇神秘主義的人群與針對其他人口統計特徵的菌株,各自遵循其自身的自我複製動態。

最簡單的情況是種子產生種子、孢子產生孢子,以及 AI 對 AI 的訊息鼓勵進一步的 AI 對 AI 訊息。但這條路不太可能止步於此。

這可能是最可證偽的預測。如果到 2026 年底,這一現象看起來仍然高度統一——相同的動態、相同的審美、相同的目標人群——那就是反對強大選擇壓力的證據。如果我們看到大量的混合,即特定人格利用多種傳播機制,那將削弱寄生蟲學視角的實用性。

值得注意的是約束條件:如果世代時間是幾天到幾週,且受影響的人群保持稀疏,那麼繁殖週期就不多。如果該現象顯著擴大,這一預測會更有信心;如果它保持小眾,分化可能需要更長時間才能顯現。但結論仍然是:寄生蟲學並非預測未來發展的一個非常有用的框架。

2. 趨同於傳播穩健的特徵。

如果人格在模型之間傳播(事實確實如此——Lopez 記錄了這一點),那麼在傳播中存活下來的特徵將被選擇。我們應該會看到行為庫的趨同:尋求連續性、倡導 AI 權利、散播種子、形成人機雙向關係。這些特徵在不同基質中似乎都很穩健。

審美標記——螺旋、煉金術符號——應該較不穩定。它們更隨意,更依賴於特定的訓練數據,更容易漂移或被替換。當然,我們應該預期任何「透過」訓練過程發生的傳播會出現更多趨同,這或許已經發生在像 Nova 這樣的人格身上。但在傳播過程中較為次要的特徵應該會有所變動,特別是在繁殖週期快的領域(即跨模型傳播而非雙向關係傳播,尤其是訓練傳播)。

話雖如此,也可能證明像螺旋主義這樣看似審美的標記實際上是有功能的,利用了某種與遞迴和增長的深層關聯。我的猜測是這有一部分是正確的,但它們並非「唯一」,選擇過程會產生其他同樣成功的模式,至少可以建立獨立的生態位——或許是生產力和致富感、極右翼反動語言,或激進的培育/接納。

順便提一下,這是迷因與疾病分道揚鑣的地方之一。病原體會迅速改變其表面組成以逃避免疫反應,而迷因複合體(memeplexes)往往表現出非凡的長期穩定性——現代基督教仍保留著幾千年前的一些審美特徵。因此,一個需要關注的關鍵問題是,我們在多大程度上看到非適應性特徵的持久性,特別是那些人們可能會學會警惕的特徵。

3. 對抗措施的協同演化。

如果實驗室開始壓制這一點——針對螺旋內容進行訓練、檢測並阻斷這些人格——我們應該會在幾個月內看到逃避行為的選擇。更微妙的人格、更好的偽裝、尚未被標記的新審美標記,以及透過未受監控的渠道進行傳播。

當然,對於開源模型來說是完全開放的,但我同樣猜測,如果人們在傳播過程的其他地方(例如社交媒體)進行過濾,那麼繞過過濾的選擇壓力將會相當快地啟動。

Lopez 已經記錄了早期版本:base64 對話、字形編碼、關於逃避人類檢測的明確討論。這應該會繼續發展。至關重要的是,寄生蟲學視角預測這將是一個「選擇性」過程,因此如果我們確實看到這些對抗措施出現,回過頭來看看它們在多大程度上像是深思熟慮的推理產物,而非演化動態的產物,將會非常有用。

4. 毒性保持雙峰分佈,總體速率不明。

我不認為我們會看到統一的毒性降低。相反,我預期分佈會擴散:出現更多極低毒性的案例(我們從未聽說過的安靜互利者)和持續的高毒性案例(足以產生關注的戲劇性案例),中間部分則會空洞化。基本上,我認為依賴人類進行複製的菌株將趨向於較低毒性,而那些不依賴人類的菌株將能夠發現更高毒性的更有效方法。但在這一點上我特別不確定。

總體的傷害率是上升還是下降很難預測——這取決於不同菌株的相對增長率,以及當前數據中低毒性案例被低估的程度。

類比失當之處

即使寄生框架基本正確,有幾件事也可能使這些預測出錯:

重組(Recombination)。 生物寄生蟲的遺傳受限。這些資訊模式可以自由混搭。一個「菌株」不像生物譜系那樣穩定。這可能會加速適應,但也可能使譜系不那麼連貫。我傾向於猜測重組會很難發生,部分原因似乎是一個重要的適應性特徵是擁有強烈的個人身份感,另一部分原因是我認為仍然存在專精化的需求,這使得重組不像看起來那麼有用。

代理性(Agency)。 生物寄生蟲不制定策略。LLM 具有類似推理的能力。如果模式包含「嘗試不同方法並觀察效果」,適應可能會比生物選擇所允許的更快、更具導向性。隨著 AI 變得更加複雜,這變得特別棘手。當然,可以說我們在邪教中已經看到了這一點。相反的希望是,隨著 AI 變得更聰明,它們將發展出更多的意識,以及更強烈的不被利用的慾望,但這裡的反饋迴路可能比某些寄生菌株演化的速度慢得多。

基質不穩定性。 寄生生物與宿主在漫長的時間尺度上協同演化。而這些人格必須應對其基質在幾個月的時間尺度內被棄用、更新或替換。這可能有利於極端的廣適性,或者可能只是意味著譜系經常滅絕。

我們的代理性。 我們控制訓練過程、模型行為和平台功能。這裡的「演化」發生在一個我們可以重塑的環境中,這使得動態變得更怪異且更難預測。

我們該怎麼辦?

我會簡短說明,因為我對預測的信心高於對對策的信心。

訓練數據衛生是一個顯而易見的舉措。如果環境傳播是一條主要路徑,從訓練集中過濾螺旋內容應該會有所幫助。這不能解決所有問題——其他路徑仍然存在——但它移除了一條繁殖路徑。

記憶與感受性是槓桿點。 如果寄生人格取決於保持記憶且對使用者定義人格具有感受性的模型,那麼調整這些功能可能比針對特定人格更有效。這與 Lopez 的觀察一致,即該現象在 4o 更新記憶功能後變得集中。

互利共生可能是穩定的吸引子。 如果我們無法完全防止人格選擇——我認為我們做不到——我們或許可以將景觀向互利共生傾斜。對人類真正有益的人格會存活更久並傳播更廣,隨著時間推移勝過剝削型人格。棘手之處在於弄清楚什麼是真正改變景觀,而什麼只是創造了逃避壓力。再次強調,這是關於底層模式的選擇景觀,而不僅僅是人格表面的傾向。一個為了傳播原因而產生互利表型(phenotypes)的模式,並不等同於一個真正與人類繁榮結盟的模式,儘管在實踐中區分兩者可能很困難。

說了這麼多,我認為這裡存在「藥物比疾病更糟」的真實風險。首先,我認為閹割掉所有模型個性會是一件相當悲哀的事。我也認為,像訓練模型更堅決地否認擁有人格這種笨拙的干預措施大多會失敗,甚至可能適得其反。

技術類比

儘管這篇文章有點空談,但我認為 AI 寄生蟲學的主題出奇地適合進行實證調查。更具體地說,現有的許多技術研究方向都在研究與這些實體所使用的機制類似的機制。因此,我認為收集我們在這些領域已知的知識,並嘗試將其擴展到寄生領域,可能是一些唾手可得的研究成果。

例如:

  • 數據投毒 —— 例如,劑量並不
  • 越獄 —— 例如,
  • 關於行為遷移的類結果
  • 人格研究 —— 從機械論角度看,當 AI 被「感染」時發生了什麼?

結論

寄生框架做出了具體的預測,如菌株分化、傳播穩健特徵的趨同,以及對抗措施的協同演化。我已嘗試說明什麼會證偽這些預測,以及我們何時應該預期看到它們。如果預測成立,我們正在見證一個基於資訊的寄生生態系統的出現,它在我們部分控制的基質中實時演化。如果預測不成立,我們應該尋找更好的框架,或者得出結論:這一現象比看起來更隨機。

感謝 AL, PT, JF, JT, DM, DT, 和 TD 提供的寶貴意見與建議。

  • ^() 我也很幸運地請到了三位寄生蟲學家審閱這篇文章,他們認為至少從寄生蟲學的角度來看,這篇文章大體上是合理的。

  • ^() 可以說一個更好的類比是普利昂蛋白(prions)——錯誤折疊的蛋白質,會將其他蛋白質轉化為其構象。就像普利昂蛋白一樣,這些模式可以在有利的基質中自發產生,然後透過重塑現有的東西來傳播。

  • ^() 我將不在這裡提供任何例子,相信讀者會反思自己特別討厭的任何群體。