《被附身的人與機器》(The Possessed Machines) 是最重要的 AI 微型網站之一。它由一位前實驗室員工匿名發布,目前似乎流傳不廣,這在一定程度上可能是由於其匿名性(例如,在我發布此文時,LessWrong 上還沒有相關討論)。這篇文章是我試圖彌補這一遺憾的嘗試。
(這篇作品很可能實質上是由人類主導,但出於匿名或懶惰的原因,透過 AI 進行了潤色。感謝 Malcolm MacLeod 在評論區 提醒我提及這一點。參見 Pangram-on-X 的分析 ,該分析聲稱其 67.5% 為 AI 生成。散文並非其強項。)
我並不完全同意文中的所有觀點,但我認為對「AGI 單一政黨」(AGI uniparty)的文化批判極度匱乏,而這對於建模和修正當前的發展軌跡至關重要。
這篇文章是對 AGI 行業某些文化和心理失敗的一次漫長但值得的分析。其框架取自杜斯妥也夫斯基的《群魔》(Demons ,亦譯作《附身者》),這是一部關於一個外省小鎮走向毀滅的小說。作者認為,這部作品最好被解讀為對一群熱誠的人如何因追隨被腐蝕的文化軌跡而導致災難的詳細描述:
我所知道的是,杜斯妥也夫斯基在觀察他那個時代時,看透了智慧社會如何自我毀滅的真相。他看到毀滅既來自最優秀的人,也來自最糟糕的人;既來自理想主義者,也來自憤世嫉俗者;既來自那些相信自己正在拯救人類的人,也來自那些想要焚毀人類的人。
這篇作品中包含了許多對重要概念的精闢簡稱,其中許多取自杜斯妥也夫斯基,我嘗試在下文進行總結。
第一:如何正確地從虛構證據中進行推廣
作者主張將文學作為一種有限但有價值的來源,用以洞察文化和道德直覺問題:
文學不能告訴我們該做什麼。它不能提供政策處方或技術解決方案。它不能預測未來或解決經驗性問題。如果有人讀杜斯妥也夫斯基是為了尋找對齊技術,那他一定會大失所望。
文學能做的是重塑感知。它可以讓隱形的模式變得可見,讓僅僅被認知的真理變得可感,讓抽象的現實變得緊迫。它可以作為道德直覺的一種訓練數據——呈現各種情境,擴展一個人「經歷過」的場景範圍,從而擴展一個人能明智應對的場景範圍。
[...]
杜斯妥也夫斯基的特殊價值在於,他痴迷的正是那些對 AI 發展最為關鍵的問題。當智慧的發展快於智慧(wisdom)時會發生什麼?當推理能力超過感受能力時會發生什麼?當一小群聰明人說服自己發現了極其重要的真理,以至於常規約束不再適用時,又會發生什麼?
斯塔夫羅金主義(Stavroginism):人類正交性命題
斯塔夫羅金(Stavrogin)是一個將道德考量視為客廳遊戲的角色。他可以分析一切,並追隨道德邏輯的線索,但在超越好奇心的層面上,他並不受其觸動或驅使。
斯塔夫羅金類型的人可以像思考下季度收入預測一樣冷靜地思考人類滅絕。這不是因為他們對問題思考得更深;而是因為他們缺乏對生存恐懼的正常人類反應。他們的平靜不是智慧,而是一種損害。
[...]
他們凝視深淵太久,以至於不再看見它。他們的平靜不是力量,而是適當情感反應的缺失。
基里洛夫式推理(Kirillovan reasoning):通往自殺的推理
與之密切相關的是基里洛夫(Kirillov)。斯塔夫羅金是對脫軌的長鏈道德推理持超然好奇態度的觀察者,而基里洛夫則是真正的信徒。
尤德科夫斯基(Yudkowsky)有一個有用的概念叫「底線」(the bottom line)——即在任何動機性推理過程中,結論是預先寫好的,而論據是事後尋找的。[...]
但還有一種相反的失敗模式,尤德科夫斯基的框架未能充分解決:即一個人跟隨論據到任何地方,卻不檢查結論是否有意義。這個人不是在進行動機性推理,而是在進行「無動機推理」,即沒有常識檢查的演繹。基里洛夫就是原型。
[...]
基里洛夫 [...] 得出的結論是,自殺是人類自由的終極行為,是人類意志對創造它的宇宙的宣示。他計劃自殺作為一種形而上學的示範,並同意留下一份遺書,為彼得·斯捷潘諾維奇(Pyotr Stepanovich)革命小組所犯下的罪行承擔責任。
作者將基里洛夫比作那些接受關於正向奇點的帕斯卡賭注式期望值(EV)計算的人。一個更好的例子可能是「繼承主義者」(successionists),其中一些人希望人類集體自殺,作為人類對未來 AI 終極道德關懷的表現。
希加廖夫主義(Shigalyovism):通往專制的推理
希加廖夫起身展示他組織社會的系統。「我已經糾纏在自己的數據中了,」他開始說道,「而我的結論與我出發時的原始想法直接矛盾。從無限的自由出發,我以無限的專制告終。但我還要補充一點,除了我對社會公式的解決方案外,沒有其他方案。」
[...]
一個角色詢問這是否僅僅是幻想。希加廖夫回答說,這是任何理性組織社會的嚴肅嘗試的必然結論。所有其他解決方案都是不可能的,因為它們要求人性變成另一種樣子。只有通過消除多數人的自由,才能為少數人保留自由,而且只有少數人有能力處理自由而不毀滅自己和他人。
[...]
眾人的反應是著迷、恐懼和一定程度的欽佩。沒有人能完全反駁這個論點。這正是杜斯妥也夫斯基的觀點:這個論點在它自身的邏輯框架內是無法反駁的,因為它的前提一旦被接受,確實會導向它的結論。錯誤在於前提,但前提隱藏在如此龐大的推理之後,以至於難以定位。
如果說斯塔夫羅金是沉迷於智力遊戲的生存風險(x-risk)旁觀者與投機者,基里洛夫是自我毀滅的瘋子,那麼希加廖夫就是為 AGI 時代重新推導出絕對專制和柏拉圖式極權主義的政治理論家。
AI 安全社群已經發展出了自己版本的希加廖夫主義 [...] 「關鍵行動」(pivotal act)的概念或許是最清晰的例子。[...] 典型的例子是使用一個對齊的 AI 來阻止所有其他 AI 的開發——建立一種對人工智能的永久壟斷。
這是數位形式的希加廖夫主義。它始於保護人類的願望,終於一個控制所有未來技術發展的單點故障提案。其推理在內部是一致的:如果未對齊的 AI 會毀滅人類,且如果許多獨立的 AI 項目會增加未對齊 AI 的概率,那麼阻止獨立 AI 的開發就能降低生存風險。證訖。
但結論是駭人的。一個單一實體控制所有 AI 發展的世界,是一個沒有實質自由、沒有退出可能、對控制該實體的人沒有任何權力制衡的世界。這就是希加廖夫的「十分之一統治十分之九」,只是用「防止滅絕」的道德框架取代了「實現天堂」的道德框架。
空洞化的機構
杜斯妥也夫斯基的觀點不在於革命者強大,而在於他們攻擊的機構軟弱。《群魔》中的外省社會沒有真正的原則,沒有深厚的根基,沒有自我防衛的能力。它靠慣性和習俗存在。當這些習俗受到挑戰時,它幾乎立即崩潰。
[...]
我在 AI 治理中觀察到了類似的動態。我參加過一些會議,會上每個人都知道擬議的部署是有風險的,但沒有人願意成為那個阻止它的人。反對的社會成本是即時且確定的;默許的成本是分散且機率性的。每一次,默許都贏了。
杜斯妥也夫斯基明白,文明的崩潰並非因為受到壓倒性的外部力量攻擊。它們崩潰是因為內部的連貫性衰退到了連適度的壓力都能將其擊碎的程度。《群魔》中的革命者並非了不起的人物;他們是平庸的外省人。他們之所以成功,是因為他們攻擊的社會更加平庸。
附身
杜斯妥也夫斯基描述的「附身」主要不是思想從外部進入大腦的問題。它是能力在缺乏相應智慧的情況下被開發出來的問題,是智慧跑贏了良知,是手段在不關注目的的情況下被培育。
《群魔》中的角色並非被社會主義、自由主義或虛無主義這些外部力量所附身。他們是被自己的聰明才智所附身——被那種無限制推理、隨心所欲追隨思想、將一切視為待解謎題而非待面對現實的陶醉體驗所附身。
AGI 單一政黨
AI 研究社群並非一群獨立的部落;它是一個單一的社會有機體,恰好分佈在多個企業宿主中。
看看實際的拓撲結構。OpenAI 的研究員 A 與 Anthropic 的研究員 B 約會;他們在 Mission 區的一個家庭聚會上相遇,聚會是由去年離開 DeepMind、現在經營一家小型對齊非營利組織的研究員 C 舉辦的。Google 的研究員 D 和 Meta 的研究員 E 是研究生同學,現在仍與另外三名在不同新創公司工作的機器學習研究員合租。一家主要實驗室的安全負責人與另一家實驗室的政策總監曾在 2017 年參加過同一個 MIRI 夏季項目。一家前沿實驗室的 CEO 和另一家的首席科學家曾在同一個非營利組織董事會任職。
這並非傳統意義上的腐敗。這僅僅是小型專業化社群運作的方式。
[...]
官方說法是 AI 實驗室之間是競爭對手。[...] 但社會拓撲結構瓦解了這個說法。當研究人員在組織之間流動時,他們也帶走了知識、假設和文化。
[...]
結果形成了一種「單一政黨」——一種超越企業隸屬關係的共享文化。這個單一政黨有自己的信念(AGI 即將到來、當前範式將持續擴展、技術對齊工作是可行的)、自己的價值觀(智力嚴謹、有效利他主義、世界主義自由主義)、自己的禁忌(過度悲觀、訴諸監管、任何帶有盧德主義色彩的東西)。這些共享的信念、價值觀和禁忌跨越組織邊界運作,在名義上的競爭對手之間創造了極其同質化的觀點。
[...]
AI 單一政黨的共享前提包括:智慧是文明未來的關鍵變量;人工智能很快將超過人類智慧;因此,目前從事 AI 工作的人是歷史上最重要的人;他們的技術和智力能力使他們有資格為人類做決定。這些前提很少被明確表達,但它們建構了一切。它們解釋了為什麼這個社群能容忍如此高水平的風險——因為另一種選擇(讓「能力較弱」的人控制發展)似乎更糟。
[...]
一個人不能相信 AI 發展應該完全停止。不能相信風險嚴重到任何程度的收益都無法證明其合理性。不能相信目前從事 AI 工作的人並非做這些決定的合適人選。不能相信傳統的政治進程可能比研究社群的非正式治理更能勝任 AI 發展的治理。
這些立場並非被明確禁止。它們只是「不可想像」的——它們會讓你被標記為局外人、不理解情況的人、不屬於對話圈子的人。這種邊界不是通過強制維持的,而是通過更微妙的社會歸屬機制:挑起的眉毛、尷尬的沉默、下次晚宴沒被邀請。
自由派父親作為虛無主義兒子的創造者
自由派斯捷潘(Stepan)的兒子彼得·斯捷潘諾維奇是《群魔》中的主要虛無主義角色。《被附身的人與機器》的作者認為,這種現象——有效利他主義轉向徹底的虛無主義或權力慾——是一種核心文化機制。我認為他們的發展方向是對的,但我不太認同他們的主要例子,即認為「本應治理 AI 的技術倫理框架——公平、問責、透明,整個 FAccT 體系——是我們這個時代的斯捷潘·特羅菲莫維奇式自由主義」,而「嚴肅的人 [...] 已經超越了這些框架」,因為它們已經過時。我對思想史的解讀是,與 AGI 相關的擔憂和關於星系未來的宏大論證 早於 那一類更平實的 AI 擔憂,它們是智力樹上不同的分支,而非彼此的繼承者。
戴上手銬的沙托夫(Shatov)
伊凡·沙托夫(Ivan Shatov)曾是一名無神論者,後來回歸了神秘的俄羅斯東正教,他是一個無法完全做到信仰的信徒。他曾是彼得革命圈子的一員,現在譴責它,但圈子不放他走。他因為想要離開的罪名被以前的同志謀殺。
沙托夫代表了一些重要的東西:那些開始懷疑項目但無法逃脫的人。每個主要的 AI 實驗室都有自己的沙托夫——那些對工作方向感到越來越不安,但被職業激勵、社會紐帶、股票期權以及想像替代路徑的真實難度所困住的研究人員。他們中有些人離開了。更多的人留了下來,希望「從內部推動」,為自己的繼續參與尋找合理化藉口。
杜斯妥也夫斯基向我們展示了沙托夫們的下場。他們沒有從內部改革運動。他們被運動摧毀了。
解決方案從根本上是精神層面的
自由派與激進派之間的意識形態爭論無法通過更多的意識形態來解決。外省陰謀的社會動態無法通過更好的協調機制來修復。知識分子的心理變形無法通過更多的智慧來治癒。需要一些其他的東西——一些在不同層面上運作、針對人類處境而非任何特定教條的東西。
我不是一個有宗教信仰的人,我也不主張用宗教方案來解決 AI 風險。但我認為杜斯妥也夫斯基指向了一些重要的東西:政治和技術方法在面對本質上屬於精神層面的問題時是有局限性的。
「精神」(spiritual)這個詞在理性主義語境下可能會引起過敏反應。讓我試著精確定義我的意思。AI 發展的核心問題不在於我們缺乏良好的對齊技術(儘管確實缺乏)。不在於激勵結構錯誤(儘管確實錯誤)。不在於治理機制不足(儘管確實不足)。核心問題在於,做出關鍵決定的人中,有許多人在某些方面受到了損害,使他們失去了明智決策的資格。
這種損害主要不是智力上的。我所想到的人都很聰明,通常是非常聰明。它更像是道德上的——一種連接知識與行動、使抽象真理具有約束力、對預期傷害產生適當情感反應的渠道的失效。