newsence
來源篩選

Problems with "The Possessed Machines"

Lesswrong

The article critiques 'The Possessed Machines' for dismissively labeling AI safety arguments as 'Shigalyovian' without substantively refuting their premises, while also questioning the author's reliability. I argue that merely pointing out a conclusion is 'monstrous' or leads to despotism does not invalidate the internal logic of pivotal act arguments.

newsence

《被附身的機器》的問題分析

Lesswrong
30 天前

AI 生成摘要

這篇文章批評《被附身的機器》一文在未實質反駁前提的情況下,便輕率地將人工智慧安全論點貼上「希加廖夫式」的標籤,同時質疑該作者的可信度。我認為僅指出結論是「可怕的」或會導致專制,並不足以否定關鍵行為論點的內在邏輯。

那麼,關於 。目前了。這是一篇很有價值的文章——它確實引發了我的一些思考!——但它存在一些重大缺陷。它(偷偷地!)避開了關於 AI 生存風險的具體論點以及大範圍的論述,卻沒有真正提出反對理由。此外,作者目前是不可信的;讀者應對文中聲稱的第一手資訊保持懷疑。

這張圖片來自。那是一篇極佳的文章,我強烈推薦。

在深入探討之前,我想讚揚一下這個標題。「Possessed」(附身/擁有)有四個相關含義:被惡魔附身;被意識形態附身;瘋狂的/狂躁的/痴迷的;屬於某人的。「Machines」(機器)則有三個可能的指涉對象:AI;人;由權勢人物/機構組成的效率團體。這裡有十二種組合,我認為以下七種(!)是適用的:

  1. 惡魔般的機器;具有智能且邪惡的機器。

  2. 屬於我們的機器;AI 是人類目前擁有的東西。

3a. 瘋狂、生產力極高的人(AI 從業者)。

3b. 惡魔般的、像機器一樣的人。

3c. 被意識形態附身的人(他們是其意識形態的機器)。

4a. 加速主義的 AI 產業。^()

4b. 失控的技術資本主義機器。^()

4c. AI 技術精英及其政治盟友組成的秘密集團。

好了,讓我們進入正題。

對關鍵行動(Pivotal Acts)的漠視

《被附身的機器》中一個重要的概念是「希加廖夫式系統/論證」(Shigalyovian system/argument)。^() 該系統/論證的定義如下:

沒有人能完全反駁這個論點。而這正是杜斯妥也夫斯基的觀點:這個論點無法在其自身的邏輯框架內被反駁,因為它的前提一旦被接受,確實會導向其結論。錯誤在於前提,但前提隱藏在大量的推理之後,難以定位。

我想非常直接地談談這段文字的當代意義。AI 安全社群已經發展出自己版本的希加廖夫主義——這些思想體系始於自由而終於專制,這些提議為了保留他們定義為有價值的東西,不惜犧牲幾乎一切。 理論上,人們應該能透過識別並反駁隱藏的前提來拆解希加廖夫式系統。然而,使一個論證成為希加廖夫式的部分原因就在於其前提難以定位,因此這可能很困難。事實上,這些體系在修辭和迷因上的成功部分源於這種困難。儘管如此,這些前提確實存在且可以被發現。

作者隨後給出了當今 AI 世界中的一個例子:

「關鍵行動」(pivotal act)的概念或許是最清晰的例子。在 AI 安全論述中,關鍵行動是指由強大的 AI 系統採取的、能永久防止某些災難性後果的行動。典型的例子是使用一個對齊的 AI 來阻止所有其他 AI 的開發——建立一種對人工智慧的永久壟斷。^(15)

這是數位形式的希加廖夫主義。它始於保護人類的願望,終於一個控制所有未來技術開發的單一故障點提議。其推理在內部是一致的:如果未對齊的 AI 會毀滅人類,且如果許多獨立的 AI 項目會增加未對齊 AI 的機率,那麼阻止獨立的 AI 開發就能降低生存風險。證明完畢(QED)。

但結論是駭人的。一個由單一實體控制所有 AI 開發的世界,是一個沒有實質自由、沒有退出可能、對該實體控制者的權力沒有任何制衡的世界。這就是希加廖夫的那十分之一統治另外十分之九,只是用「防止滅絕」的道德框架取代了「實現天堂」的道德框架。

這裡隱含的結論是,我們不應該使用對齊的 AI 來阻止所有其他 AI 的開發。但作者實際上並沒有為此提出論證。在這種希加廖夫式的框架下,他們若要反駁關鍵行動論證,需要做的是找出那些令人反感的隱藏前提並加以反駁。但作者並沒有這麼做。

換句話說,這裡的論證形式是:

  1. X -> Y 是一個始於自由、終於專制的系統。
  2. 因此 X -> Y 是希加廖夫式的。
  3. [隱含] 因此 X -> Y 雖然邏輯有效(valid)但前提不真(unsound)。
  4. [隱含] 因此 Y 是錯誤的。

其中 X -> Y 是「關鍵行動」系統:<<保護人類的願望 -> 使用對齊的 AI 阻止所有其他 AI 開發>>。

這個論證有問題。問題在於作者實際上並未證明 X -> Y 是前提不真的。僅僅因為一個有效的論證始於自由而終於專制,並不代表它是錯誤的!要判斷結論是否錯誤,你必須審視其假設——即「隱藏的前提」。

關鍵行動論證中的隱藏前提是什麼?其中的錯誤又是什麼?我不知道!但如果你想反對關鍵行動……你需要實質性地參與這些問題。僅僅指出該系統始於自由而終於你認為的「專制」,且其結論對你而言是「駭人的」……這是不夠的。這不是真正的論證。

對冷靜、理性論述的漠視

《被附身的機器》的一個核心主張是,問題的核心在於產業中某些權勢人物的道德缺失。在題為「怎麼辦?」的章節中,作者寫道:

核心問題在於,做出關鍵決策的人中,有許多人在某些方面受損,使他們失去了明智決策的資格。

他們繼續寫道:

這種損害主要不是智力上的。我所想到的人都很聰明,通常是非常聰明。這更像是道德上的——連接知識與行動的管道失效了,這使得抽象真理感覺不到約束力,無法對預想的傷害產生適當的情緒反應。

《群魔》中有兩個角色具有這種道德缺失:彼得·韋爾霍文斯基(Pyotr Verkhovensky)和斯塔夫羅金(Stavrogin)。

韋爾霍文斯基迷人、聰明,且絕對沒有道德內涵。他除了自己的權力和看著事物燃燒的快感外,什麼都不相信……

斯塔夫羅金才華橫溢、英俊、有魅力,但內心完全空虛……他有能力進行最高層次的智力參與,但將其視為一場表演而非連結。

《被附身的機器》提出了一個具體的觀點:AI 領域中一些最有權勢的人就是韋爾霍文斯基和斯塔夫羅金。對此我沒有異議。

接著,文章提出了一個相關且更廣泛的觀點,大意是:大多數關於 AI 生存風險的冷靜、「理性」討論都源於一種匱乏。在一種情況下,這種匱乏是情感/道德上的「麻木」:

某些談論人類滅絕時最為冷靜的人,並非因為獲得了智慧而冷靜,而是因為獲得了麻木。他們凝視深淵太久,以至於不再看見它。他們的沉著不是力量,而是缺乏適當的情緒反應。

在另一種情況下,這種匱乏是「黑暗的美學化」或「表演」:

斯塔夫羅金的懺悔之所以失敗,是因為他將其變成了一場表演。他想要震驚的效果而不需要悔改。他想被視為一個做過可怕之事且能毫不畏縮地面對它們的人——但這種渴望本身就是一種畏縮,一種將道德現實轉化為美學姿態的方式。

我在理性主義相關(rationalist-adjacent)的世界中隨處可見這種動態。討論生存風險、思考人類滅絕、推理酷刑、種族滅絕和文明崩潰的意願——只要這能幫助我們更清晰地思考這些話題,這一切都是有價值的。但當討論的意願本身成為首要事物,當人們競相表現出最願意面對最黑暗話題的樣子,當毫不畏縮的分析姿態取代了真正的道德參與時,這就變得危險了。

這些段落隱含的意思是,這種匱乏使得冷靜、「理性」的 AI 生存風險論述從根本上是站不住腳的。作者聲稱,這種論述源於麻木而非智慧;這種論述是表演而非真正的道德參與。

但等等。這是否意味著論點本身是錯誤的?同樣地,我們又看到作者並未真正與論點交鋒。就像在討論「關鍵行動」時一樣,作者提供了漠視對方論點的元理由(meta-reasons),卻沒有真正參與這些論點。讀者會有一種已經做出了有效反駁的錯覺,但事實並非如此。

作者到底想要什麼?再次閱讀那些段落,我推測他們想要「適當的情緒反應」和「真正的道德參與」。與之相對的是……沉著?毫不畏縮的分析?

叫我瘋子也罷,但我認為沉著和毫不畏縮的分析是好事。或許作者並非批評這些東西的存在,而是批評缺乏其他東西。為什麼不能兩者兼得?(¿Por qué no los dos?)

好吧。對這一切「正確」的情緒反應是什麼?這其實是個好問題,認真地問問你自己。那真正的道德參與呢?「當毫不畏縮的分析姿態取代了真正的道德參與」聽起來很美,但……這到底是什麼意思?叫我瘋子也罷,我認為毫不畏縮的分析相當不錯!那替代方案是什麼?

我們能信任作者嗎?

。如果作者確實如其所言,他們應該提供驗證。我為什麼這麼認為?

1. 我認為作者在文章寫作方式上撒了謊。

《被附身的機器》的寫作中含有大量的 AI 痕跡。網頁底部聲明:「為了隱藏作者的風格特徵,上述文本是對原始手寫稿進行逐句重寫,並通過 Claude Opus 4.5 處理而成。」正如我寫道的:

啊,這段[聲明]在我讀這篇文章時(1 月 23 日)還不在那裡。你可以看這個,裡面沒有這句話。

我其實不相信這份文件是這樣製作的。有幾個原因。首先,我不認為逐句重寫會是這個樣子;我不認為那樣做會產生這篇文章中如此濃厚的 AI 風格。其次,插曲中的故事非常有 AI 感,不僅是逐句的風格,在其他方面也是。第三,章節和部分的標題看起來非常像 AI 生成的……

這篇約 17,000 字的文章中使用了 31 次「genuine/genuinely」(真正的/真正地)。平均每 550 字就出現一次。

另見……

2. 可疑之處

來自

這裡有些東西感覺有點奇怪。作者說他們在 2024 年初離開,然後在「接下來的幾個月」閱讀杜斯妥也夫斯基並撰寫這篇論文。這篇論文是舊的現在才放上來嗎?(如果是用 4.5 跑過的,那一定是最近才編輯的)。最後提到的編輯是誰?難道是 Tim Hwang 嗎?如果能更透明一點會更好(關於使用 Opus 4.5 進行匿名化的免責聲明是在 24 號有人指出聽起來很像 AI 寫的之後才添加的)。

另一個疑點:為什麼 Hwang 基本上在同一時間又架設了另一個關於《群魔》的微型網站,由一位「仍在產業內工作」的匿名作者撰寫,且具有明顯的 LLM 寫作模式?。雖然那個網站內容沒那麼深入。

在網頁底部的「關於作者」欄位中,我們被告知「信件可寄給編輯」。這很奇怪,因為我們不知道編輯是誰。這很可能是 Claude 添加的內容,而人類作者沒有檢查。

指出:

章節編號存在一些異常:

第 IV 部分以第 18 章結束;第 V 部分卻從第 21 章開始……[以此類推]。

3. 這篇文章可能由非 AI 內部人士撰寫

如果你沉浸在 2025/2026 年的理性主義 AI 論述中,你就會擁有撰寫《被附身的機器》所需的資訊。也就是說,文中沒有「內部資訊」。文中有很多「我看到實驗室的人做這件事 [而這件事是我這個非內部人士早就認為實驗室的人會做的]」。 也提出了同樣的觀點:「這篇文章似乎很有可能是由一個只能接觸到公開寫作的人撰寫的。」


  • ^() 摘自論文:「不是受意識形態驅使,不是受任何單一願景驅使,而是受加速精神本身驅使——這種追求『更多』和『更快』的動力沒有終點,除了持續運動外沒有任何成功標準。」
  • ^() 「技術資本主義機器」= 由風險投資(VC)、新創公司、實驗室、政府等組成的系統。這台機器之所以失控,是因為它有自己的目標,我們無法控制它,且它正在創造某種邪惡的東西。它是一台被附身的機器。
  • ^() 我將「系統」理解為類似「信仰體系」的東西;我會使用的同義詞是「世界觀」或「迷因複合物」(memeplex)。