那麼,關於 《被附身的機器》(The Possessed Machines) 。目前已經有一些討論 了。這是一篇很有價值的文章——它確實引發了我的一些思考!——但它存在一些重大 缺陷。它(偷偷地!)避開了關於 AI 生存風險的具體論點以及大範圍的論述,卻沒有真正提出反對理由。此外,作者目前是不可信的;讀者應對文中聲稱的第一手資訊保持懷疑。
這張圖片來自 另一篇關於《群魔》的「書評」 。那是一篇極佳的文章,我強烈推薦。
在深入探討之前,我想讚揚一下這個標題。「Possessed」(附身/擁有)有四個相關含義:被惡魔附身;被意識形態附身;瘋狂的/狂躁的/痴迷的;屬於某人的。「Machines」(機器)則有三個可能的指涉對象:AI;人;由權勢人物/機構組成的效率團體。這裡有十二種組合,我認為以下七種(!)是適用的:
惡魔般的機器;具有智能且邪惡的機器。
屬於我們的機器;AI 是人類目前擁有的東西。
3a. 瘋狂、生產力極高的人(AI 從業者)。
3b. 惡魔般的、像機器一樣的人。
3c. 被意識形態附身的人(他們是其意識形態的機器)。
4a. 加速主義的 AI 產業。^([1] )
4b. 失控的技術資本主義機器。^([2] )
4c. AI 技術精英及其政治盟友組成的秘密集團。
好了,讓我們進入正題。
對關鍵行動(Pivotal Acts)的漠視
《被附身的機器》中一個重要的概念是「希加廖夫式系統/論證」(Shigalyovian system/argument)。^([3] ) 該系統/論證的定義如下:
沒有人能完全反駁這個論點。而這正是杜斯妥也夫斯基的觀點:這個論點無法在其自身的邏輯框架內被反駁,因為它的前提一旦被接受,確實會導向其結論。錯誤在於前提 ,但前提隱藏在大量的推理之後,難以定位。
我想非常直接地談談這段文字的當代意義。AI 安全社群已經發展出自己版本的希加廖夫主義——這些思想體系始於自由而終於專制,這些提議為了保留他們定義為有價值的東西,不惜犧牲幾乎一切。 理論上,人們應該能透過識別並反駁隱藏的前提來拆解希加廖夫式系統。然而,使一個論證成為希加廖夫式的部分原因就在於其前提難以定位,因此這可能很困難。事實上,這些體系在修辭和迷因上的成功部分源於這種困難。儘管如此,這些前提確實存在且可以被發現。
作者隨後給出了當今 AI 世界中的一個例子:
「關鍵行動」(pivotal act)的概念或許是最清晰的例子。在 AI 安全論述中,關鍵行動是指由強大的 AI 系統採取的、能永久防止某些災難性後果的行動。典型的例子是使用一個對齊的 AI 來阻止所有其他 AI 的開發——建立一種對人工智慧的永久壟斷。^(15)
這是數位形式的希加廖夫主義。它始於保護人類的願望,終於一個控制所有未來技術開發的單一故障點提議。其推理在內部是一致的:如果未對齊的 AI 會毀滅人類,且如果許多獨立的 AI 項目會增加未對齊 AI 的機率,那麼阻止獨立的 AI 開發就能降低生存風險。證明完畢(QED)。
但結論是駭人的。一個由單一實體控制所有 AI 開發的世界,是一個沒有實質自由、沒有退出可能、對該實體控制者的權力沒有任何制衡的世界。這就是希加廖夫的那十分之一統治另外十分之九,只是用「防止滅絕」的道德框架取代了「實現天堂」的道德框架。
這裡隱含的結論是,我們不應該使用對齊的 AI 來阻止所有其他 AI 的開發。但作者實際上並沒有為此提出論證。在這種希加廖夫式的框架下,他們若要反駁關鍵行動論證,需要做的是找出那些令人反感的隱藏前提並加以反駁。但作者並沒有這麼做。
換句話說,這裡的論證形式是:
X -> Y 是一個始於自由、終於專制的系統。
因此 X -> Y 是希加廖夫式的。
[隱含] 因此 X -> Y 雖然邏輯有效(valid)但前提不真(unsound)。
[隱含] 因此 Y 是錯誤的。
其中 X -> Y 是「關鍵行動」系統:<<保護人類的願望 -> 使用對齊的 AI 阻止所有其他 AI 開發>>。
這個論證有問題。問題在於作者實際上並未證明 X -> Y 是前提不真的。僅僅因為一個有效的論證始於自由而終於專制,並不代表它是錯誤的!要判斷結論是否錯誤,你必須審視其假設——即「隱藏的前提」。
關鍵行動論證中的隱藏前提是什麼?其中的錯誤又是什麼?我不知道!但如果你想反對關鍵行動……你需要實質性地參與這些問題。僅僅指出該系統始於自由而終於你認為的「專制」,且其結論對你而言是「駭人的」……這是不夠的。這不是真正的論證。
對冷靜、理性論述的漠視
《被附身的機器》的一個核心主張是,問題的核心在於產業中某些權勢人物的道德缺失。在題為「怎麼辦?」的章節中,作者寫道:
核心問題在於,做出關鍵決策的人中,有許多人在某些方面受損,使他們失去了明智決策的資格。
他們繼續寫道:
這種損害主要不是智力上的。我所想到的人都很聰明,通常是非常聰明。這更像是道德上的——連接知識與行動的管道失效了 ,這使得抽象真理感覺不到約束力,無法對預想的傷害產生適當的情緒反應。
《群魔》中有兩個角色具有這種道德缺失:彼得·韋爾霍文斯基(Pyotr Verkhovensky)和斯塔夫羅金(Stavrogin)。
韋爾霍文斯基迷人、聰明,且絕對沒有道德內涵。他除了自己的權力和看著事物燃燒的快感外,什麼都不相信……
斯塔夫羅金才華橫溢、英俊、有魅力,但內心完全空虛……他有能力進行最高層次的智力參與,但將其視為一場表演而非連結。
《被附身的機器》提出了一個具體的觀點:AI 領域中一些最有權勢的人就是韋爾霍文斯基和斯塔夫羅金。對此我沒有異議。
接著,文章提出了一個相關且更廣泛的觀點,大意是:大多數關於 AI 生存風險的冷靜、「理性」討論都源於一種匱乏。在一種情況下,這種匱乏是情感/道德上的「麻木」:
某些談論人類滅絕時最為冷靜的人,並非因為獲得了智慧而冷靜,而是因為獲得了麻木。他們凝視深淵太久,以至於不再看見它。他們的沉著不是力量,而是缺乏適當的情緒反應。
在另一種情況下,這種匱乏是「黑暗的美學化」或「表演」:
斯塔夫羅金的懺悔之所以失敗,是因為他將其變成了一場表演。他想要震驚的效果而不需要悔改。他想被視為一個做過可怕之事且能毫不畏縮地面對它們的人——但這種渴望本身就是一種畏縮,一種將道德現實轉化為美學姿態的方式。
我在理性主義相關(rationalist-adjacent)的世界中隨處可見這種動態。討論生存風險、思考人類滅絕、推理酷刑、種族滅絕和文明崩潰的意願——只要這能幫助我們更清晰地思考這些話題,這一切都是有價值的。但當討論的意願本身成為首要事物,當人們競相表現出最願意面對最黑暗話題的樣子,當毫不畏縮的分析姿態取代了真正的道德參與時,這就變得危險了。
這些段落隱含的意思是,這種匱乏使得冷靜、「理性」的 AI 生存風險論述從根本上是站不住腳的。作者聲稱,這種論述源於麻木而非智慧;這種論述是表演而非真正的道德參與。
但等等。這是否意味著論點本身是錯誤的?同樣地,我們又看到作者並未真正與論點交鋒。就像在討論「關鍵行動」時一樣,作者提供了漠視對方論點的元理由(meta-reasons),卻沒有真正參與這些論點。讀者會有一種已經做出了有效反駁的錯覺,但事實並非如此。
作者到底想要什麼?再次閱讀那些段落,我推測他們想要「適當的情緒反應」和「真正的道德參與」。與之相對的是……沉著?毫不畏縮的分析?
叫我瘋子也罷,但我認為沉著和毫不畏縮的分析是好事。或許作者並非批評這些東西的存在,而是批評缺乏其他東西。為什麼不能兩者兼得?(¿Por qué no los dos?)
好吧。對這一切「正確」的情緒反應是什麼?這其實是個好問題,認真地問問你自己。那真正的道德參與呢?「當毫不畏縮的分析姿態取代了真正的道德參與」聽起來很美,但……這到底是什麼意思?叫我瘋子也罷,我認為毫不畏縮的分析相當不錯!那替代方案是什麼?
我們能信任作者嗎?
不能 。如果作者確實如其所言,他們應該提供驗證。我為什麼這麼認為?
1. 我認為作者在文章寫作方式上撒了謊。
《被附身的機器》的寫作中含有大量的 AI 痕跡。網頁底部聲明:「為了隱藏作者的風格特徵,上述文本是對原始手寫稿進行逐句重寫,並通過 Claude Opus 4.5 處理而成。」正如我在一則評論中 寫道的:
啊,這段[聲明]在我讀這篇文章時(1 月 23 日)還不在那裡。你可以看這個存檔版本 ,裡面沒有這句話。
我其實不相信這份文件是這樣製作的。有幾個原因。首先,我不認為逐句重寫會是這個樣子;我不認為那樣做會產生這篇文章中如此濃厚的 AI 風格。其次,插曲中的故事非常有 AI 感,不僅是逐句的風格,在其他方面也是。第三,章節和部分的標題看起來非常像 AI 生成的……
這篇約 17,000 字的文章中使用了 31 次「genuine/genuinely」(真正的/真正地)。平均每 550 字就出現一次。
另見……
2. 可疑之處
來自 kaiwilliams :
這裡有些東西感覺有點奇怪。作者說他們在 2024 年初離開,然後在「接下來的幾個月」閱讀杜斯妥也夫斯基並撰寫這篇論文。這篇論文是舊的現在才放上來嗎?(如果是用 4.5 跑過的,那一定是最近才編輯的)。最後提到的編輯是誰?難道是 Tim Hwang 嗎?如果能更透明一點會更好(關於使用 Opus 4.5 進行匿名化的免責聲明是在 24 號有人指出聽起來很像 AI 寫的之後才添加的)。
另一個疑點:為什麼 Hwang 基本上在同一時間又架設了另一個關於《群魔》的微型網站,由一位「仍在產業內工作」的匿名作者撰寫,且具有明顯的 LLM 寫作模式?https://shigalyovism.com/ 。雖然那個網站內容沒那麼深入。
在網頁底部的「關於作者」欄位中,我們被告知「信件可寄給編輯」。這很奇怪,因為我們不知道編輯是誰。這很可能是 Claude 添加的內容,而人類作者沒有檢查。
Richard_Kennaway 指出:
章節編號存在一些異常:
第 IV 部分以第 18 章結束;第 V 部分卻從第 21 章開始……[以此類推]。
3. 這篇文章可能由非 AI 內部人士撰寫
如果你沉浸在 2025/2026 年的理性主義 AI 論述中,你就會擁有撰寫《被附身的機器》所需的資訊。也就是說,文中沒有「內部資訊」。文中有很多「我看到實驗室的人做這件事 [而這件事是我這個非內部人士早就認為實驗室的人會做的]」。Leogao 也提出了同樣的觀點:「這篇文章似乎很有可能是由一個只能接觸到公開寫作的人撰寫的。」
^([1] ) 摘自論文:「不是受意識形態驅使,不是受任何單一願景驅使,而是受加速精神本身驅使——這種追求『更多』和『更快』的動力沒有終點,除了持續運動外沒有任何成功標準。」
^([2] ) 「技術資本主義機器」= 由風險投資(VC)、新創公司、實驗室、政府等組成的系統。這台機器之所以失控,是因為它有自己的目標,我們無法控制它,且它正在創造某種邪惡的東西。它是一台被附身的機器。
^([3] ) 我將「系統」理解為類似「信仰體系」的東西;我會使用的同義詞是「世界觀」或「迷因複合物」(memeplex)。