《被附身的機器》的問題分析

Lesswrong

30 天前

AI 生成摘要

這篇文章批評《被附身的機器》一文在未實質反駁前提的情況下，便輕率地將人工智慧安全論點貼上「希加廖夫式」的標籤，同時質疑該作者的可信度。我認為僅指出結論是「可怕的」或會導致專制，並不足以否定關鍵行為論點的內在邏輯。

那麼，關於。目前了。這是一篇很有價值的文章——它確實引發了我的一些思考！——但它存在一些重大缺陷。它（偷偷地！）避開了關於 AI 生存風險的具體論點以及大範圍的論述，卻沒有真正提出反對理由。此外，作者目前是不可信的；讀者應對文中聲稱的第一手資訊保持懷疑。

這張圖片來自。那是一篇極佳的文章，我強烈推薦。

在深入探討之前，我想讚揚一下這個標題。「Possessed」（附身/擁有）有四個相關含義：被惡魔附身；被意識形態附身；瘋狂的/狂躁的/痴迷的；屬於某人的。「Machines」（機器）則有三個可能的指涉對象：AI；人；由權勢人物/機構組成的效率團體。這裡有十二種組合，我認為以下七種（！）是適用的：

惡魔般的機器；具有智能且邪惡的機器。
屬於我們的機器；AI 是人類目前擁有的東西。

3a. 瘋狂、生產力極高的人（AI 從業者）。

3b. 惡魔般的、像機器一樣的人。

3c. 被意識形態附身的人（他們是其意識形態的機器）。

4a. 加速主義的 AI 產業。^()

4b. 失控的技術資本主義機器。^()

4c. AI 技術精英及其政治盟友組成的秘密集團。

好了，讓我們進入正題。

對關鍵行動（Pivotal Acts）的漠視

《被附身的機器》中一個重要的概念是「希加廖夫式系統/論證」（Shigalyovian system/argument）。^() 該系統/論證的定義如下：

沒有人能完全反駁這個論點。而這正是杜斯妥也夫斯基的觀點：這個論點無法在其自身的邏輯框架內被反駁，因為它的前提一旦被接受，確實會導向其結論。錯誤在於前提，但前提隱藏在大量的推理之後，難以定位。

我想非常直接地談談這段文字的當代意義。AI 安全社群已經發展出自己版本的希加廖夫主義——這些思想體系始於自由而終於專制，這些提議為了保留他們定義為有價值的東西，不惜犧牲幾乎一切。理論上，人們應該能透過識別並反駁隱藏的前提來拆解希加廖夫式系統。然而，使一個論證成為希加廖夫式的部分原因就在於其前提難以定位，因此這可能很困難。事實上，這些體系在修辭和迷因上的成功部分源於這種困難。儘管如此，這些前提確實存在且可以被發現。

作者隨後給出了當今 AI 世界中的一個例子：

「關鍵行動」（pivotal act）的概念或許是最清晰的例子。在 AI 安全論述中，關鍵行動是指由強大的 AI 系統採取的、能永久防止某些災難性後果的行動。典型的例子是使用一個對齊的 AI 來阻止所有其他 AI 的開發——建立一種對人工智慧的永久壟斷。^(15)

這是數位形式的希加廖夫主義。它始於保護人類的願望，終於一個控制所有未來技術開發的單一故障點提議。其推理在內部是一致的：如果未對齊的 AI 會毀滅人類，且如果許多獨立的 AI 項目會增加未對齊 AI 的機率，那麼阻止獨立的 AI 開發就能降低生存風險。證明完畢（QED）。

但結論是駭人的。一個由單一實體控制所有 AI 開發的世界，是一個沒有實質自由、沒有退出可能、對該實體控制者的權力沒有任何制衡的世界。這就是希加廖夫的那十分之一統治另外十分之九，只是用「防止滅絕」的道德框架取代了「實現天堂」的道德框架。

這裡隱含的結論是，我們不應該使用對齊的 AI 來阻止所有其他 AI 的開發。但作者實際上並沒有為此提出論證。在這種希加廖夫式的框架下，他們若要反駁關鍵行動論證，需要做的是找出那些令人反感的隱藏前提並加以反駁。但作者並沒有這麼做。

換句話說，這裡的論證形式是：

X -> Y 是一個始於自由、終於專制的系統。
因此 X -> Y 是希加廖夫式的。
[隱含] 因此 X -> Y 雖然邏輯有效（valid）但前提不真（unsound）。
[隱含] 因此 Y 是錯誤的。

其中 X -> Y 是「關鍵行動」系統：<<保護人類的願望 -> 使用對齊的 AI 阻止所有其他 AI 開發>>。

這個論證有問題。問題在於作者實際上並未證明 X -> Y 是前提不真的。僅僅因為一個有效的論證始於自由而終於專制，並不代表它是錯誤的！要判斷結論是否錯誤，你必須審視其假設——即「隱藏的前提」。

關鍵行動論證中的隱藏前提是什麼？其中的錯誤又是什麼？我不知道！但如果你想反對關鍵行動……你需要實質性地參與這些問題。僅僅指出該系統始於自由而終於你認為的「專制」，且其結論對你而言是「駭人的」……這是不夠的。這不是真正的論證。

對冷靜、理性論述的漠視

《被附身的機器》的一個核心主張是，問題的核心在於產業中某些權勢人物的道德缺失。在題為「怎麼辦？」的章節中，作者寫道：

核心問題在於，做出關鍵決策的人中，有許多人在某些方面受損，使他們失去了明智決策的資格。

他們繼續寫道：

這種損害主要不是智力上的。我所想到的人都很聰明，通常是非常聰明。這更像是道德上的——連接知識與行動的管道失效了，這使得抽象真理感覺不到約束力，無法對預想的傷害產生適當的情緒反應。

《群魔》中有兩個角色具有這種道德缺失：彼得·韋爾霍文斯基（Pyotr Verkhovensky）和斯塔夫羅金（Stavrogin）。

韋爾霍文斯基迷人、聰明，且絕對沒有道德內涵。他除了自己的權力和看著事物燃燒的快感外，什麼都不相信……

斯塔夫羅金才華橫溢、英俊、有魅力，但內心完全空虛……他有能力進行最高層次的智力參與，但將其視為一場表演而非連結。

《被附身的機器》提出了一個具體的觀點：AI 領域中一些最有權勢的人就是韋爾霍文斯基和斯塔夫羅金。對此我沒有異議。

接著，文章提出了一個相關且更廣泛的觀點，大意是：大多數關於 AI 生存風險的冷靜、「理性」討論都源於一種匱乏。在一種情況下，這種匱乏是情感/道德上的「麻木」：

某些談論人類滅絕時最為冷靜的人，並非因為獲得了智慧而冷靜，而是因為獲得了麻木。他們凝視深淵太久，以至於不再看見它。他們的沉著不是力量，而是缺乏適當的情緒反應。

在另一種情況下，這種匱乏是「黑暗的美學化」或「表演」：

斯塔夫羅金的懺悔之所以失敗，是因為他將其變成了一場表演。他想要震驚的效果而不需要悔改。他想被視為一個做過可怕之事且能毫不畏縮地面對它們的人——但這種渴望本身就是一種畏縮，一種將道德現實轉化為美學姿態的方式。

我在理性主義相關（rationalist-adjacent）的世界中隨處可見這種動態。討論生存風險、思考人類滅絕、推理酷刑、種族滅絕和文明崩潰的意願——只要這能幫助我們更清晰地思考這些話題，這一切都是有價值的。但當討論的意願本身成為首要事物，當人們競相表現出最願意面對最黑暗話題的樣子，當毫不畏縮的分析姿態取代了真正的道德參與時，這就變得危險了。

這些段落隱含的意思是，這種匱乏使得冷靜、「理性」的 AI 生存風險論述從根本上是站不住腳的。作者聲稱，這種論述源於麻木而非智慧；這種論述是表演而非真正的道德參與。

但等等。這是否意味著論點本身是錯誤的？同樣地，我們又看到作者並未真正與論點交鋒。就像在討論「關鍵行動」時一樣，作者提供了漠視對方論點的元理由（meta-reasons），卻沒有真正參與這些論點。讀者會有一種已經做出了有效反駁的錯覺，但事實並非如此。

作者到底想要什麼？再次閱讀那些段落，我推測他們想要「適當的情緒反應」和「真正的道德參與」。與之相對的是……沉著？毫不畏縮的分析？

叫我瘋子也罷，但我認為沉著和毫不畏縮的分析是好事。或許作者並非批評這些東西的存在，而是批評缺乏其他東西。為什麼不能兩者兼得？（¿Por qué no los dos?）

好吧。對這一切「正確」的情緒反應是什麼？這其實是個好問題，認真地問問你自己。那真正的道德參與呢？「當毫不畏縮的分析姿態取代了真正的道德參與」聽起來很美，但……這到底是什麼意思？叫我瘋子也罷，我認為毫不畏縮的分析相當不錯！那替代方案是什麼？

我們能信任作者嗎？

。如果作者確實如其所言，他們應該提供驗證。我為什麼這麼認為？

1. 我認為作者在文章寫作方式上撒了謊。

《被附身的機器》的寫作中含有大量的 AI 痕跡。網頁底部聲明：「為了隱藏作者的風格特徵，上述文本是對原始手寫稿進行逐句重寫，並通過 Claude Opus 4.5 處理而成。」正如我寫道的：

啊，這段[聲明]在我讀這篇文章時（1 月 23 日）還不在那裡。你可以看這個，裡面沒有這句話。

我其實不相信這份文件是這樣製作的。有幾個原因。首先，我不認為逐句重寫會是這個樣子；我不認為那樣做會產生這篇文章中如此濃厚的 AI 風格。其次，插曲中的故事非常有 AI 感，不僅是逐句的風格，在其他方面也是。第三，章節和部分的標題看起來非常像 AI 生成的……

這篇約 17,000 字的文章中使用了 31 次「genuine/genuinely」（真正的/真正地）。平均每 550 字就出現一次。

另見……

2. 可疑之處

來自：

這裡有些東西感覺有點奇怪。作者說他們在 2024 年初離開，然後在「接下來的幾個月」閱讀杜斯妥也夫斯基並撰寫這篇論文。這篇論文是舊的現在才放上來嗎？（如果是用 4.5 跑過的，那一定是最近才編輯的）。最後提到的編輯是誰？難道是 Tim Hwang 嗎？如果能更透明一點會更好（關於使用 Opus 4.5 進行匿名化的免責聲明是在 24 號有人指出聽起來很像 AI 寫的之後才添加的）。

另一個疑點：為什麼 Hwang 基本上在同一時間又架設了另一個關於《群魔》的微型網站，由一位「仍在產業內工作」的匿名作者撰寫，且具有明顯的 LLM 寫作模式？。雖然那個網站內容沒那麼深入。

在網頁底部的「關於作者」欄位中，我們被告知「信件可寄給編輯」。這很奇怪，因為我們不知道編輯是誰。這很可能是 Claude 添加的內容，而人類作者沒有檢查。

指出：

章節編號存在一些異常：

第 IV 部分以第 18 章結束；第 V 部分卻從第 21 章開始……[以此類推]。

3. 這篇文章可能由非 AI 內部人士撰寫

如果你沉浸在 2025/2026 年的理性主義 AI 論述中，你就會擁有撰寫《被附身的機器》所需的資訊。也就是說，文中沒有「內部資訊」。文中有很多「我看到實驗室的人做這件事 [而這件事是我這個非內部人士早就認為實驗室的人會做的]」。也提出了同樣的觀點：「這篇文章似乎很有可能是由一個只能接觸到公開寫作的人撰寫的。」

^() 摘自論文：「不是受意識形態驅使，不是受任何單一願景驅使，而是受加速精神本身驅使——這種追求『更多』和『更快』的動力沒有終點，除了持續運動外沒有任何成功標準。」
^() 「技術資本主義機器」= 由風險投資（VC）、新創公司、實驗室、政府等組成的系統。這台機器之所以失控，是因為它有自己的目標，我們無法控制它，且它正在創造某種邪惡的東西。它是一台被附身的機器。
^() 我將「系統」理解為類似「信仰體系」的東西；我會使用的同義詞是「世界觀」或「迷因複合物」（memeplex）。

Problems with "The Possessed Machines"