AI 災難的最簡論證

Lesswrong

23 天前

AI 生成摘要

全球頂尖科技公司正競相開發在經濟與軍事任務上超越人類的超人工智慧，但我們卻缺乏控制或驗證這些具備自主目標之意識的方法。這種快速且日益泛用的人工智慧進展，極有可能導致非常糟糕的災難性結局。

大家好。正如你們有些人所知，我一直試圖寫一篇文章，。我認為現有的文章因為一些可以修正的原因，表現得不如預期。所以我嘗試寫一篇更好的。最後，這篇文章變得比「最簡單論點」應有的篇幅更長、更詳細。未來我可能會根據回饋再次重寫。

總之，以下是文章全文：

全球最大的科技公司正在開發智慧體，這些智慧體在幾乎所有經濟和軍事相關的任務上都將超越人類。
許多這類智慧體將是能在現實世界中行動、追求目標的心智，而不僅僅是令人印象深刻的模式匹配器。
與傳統軟體不同，我們無法精確指定這些心智想要什麼，也無法驗證它們會做什麼。我們只能培育和塑造它們，並希望這種塑造能發揮作用。
這一切的結局可能會非常糟糕。

全球最大的科技公司正在開發智慧體，這些智慧體在幾乎所有經濟和軍事相關的任務上都將超越人類

OpenAI、Google DeepMind、Anthropic 和 Meta AI 的執行長都明確表示，開發人類水平或超人類水平的 AI 是他們的目標，並為此投入了數十億美元，且計劃在不久的將來再投入數千億至數兆美元。所謂「超人類」，他們指的是在「幾乎所有相關任務上都優於最強的人類」，而不僅僅是在某個單一領域比普通人強。

*照片由上傳至 *

他們會成功嗎？如果沒有人阻止，很可能會。

截至 2026 年 2 月，AI 目前在少數任務（西洋棋、圍棋、星海爭霸、天氣預報）中優於最強的人類。在許多其他領域（程式編寫、回答博士級通識問題、競賽級數學、城市駕駛、部分商業藝術、寫作），它們已與熟練的專業人士持平或接近持平，而在大多數任務中則略遜於人類。

但 AI 只會隨著時間變得更強，而且進步速度極快。過去 10 年已經發生了飛躍性的進展。七年前（GPT-2 之前），語言模型幾乎無法串連出連貫的句子；今天，大型語言模型（LLM）可以輕鬆完成大學程度的寫作作業，而 X AI 的 Grok 甚至能以極其露骨的細節，唱出。

值得注意的是，雖然 AI 的進步在歷史上各個領域有所不同，但過去十年的趨勢是 AI 的進步越來越具備通用性。也就是說，AI 將進步到能夠完成所有（或幾乎所有）任務，而不僅僅是。今天，AI 約佔美國經濟的 1-3%，而今年很可能是 AI 佔世界經濟比例最低的一年。

*對於那些對這些大原則不以為然的人，我建議親自去查看 AI 的進展和能力。特別是將舊模型的性能與現今模型進行對比，觀察其飛速的提升。。

重要的是，除了最樂觀的預測者外，所有人都系統性地、大幅度地低估了 AI 進步的速度。1997 年，專家才能在圍棋上超越人類。在 2022 年（！），問卷調查中的 AI 研究人員中位數認為，要到 2027 年 AI 才能編寫簡單的 Python 函式。到了 2024 年 12 月，。

如今，最核心參與 AI 開發的人相信，他們很快就能開發出通用的超人類 AI。Anthropic AI 的執行長 Dario Amodei 認為最快可能在實現。Google DeepMind 負責人 Demis Hassabis 。

雖然目前還不確定 AI 究竟何時會在幾乎所有經濟和軍事相關任務上大幅超越人類，但這在相對較短的時間內發生的可能性極高（不是明天，可能不是今年，不確定最終是 3 年還是 30 年），這應該讓我們所有人都對接下來會發生什麼感到相當擔憂。

許多這類智慧體將是能在現實世界中行動、追求目標的心智，而不僅僅是令人印象深刻的模式匹配器

許多人對上述段落的論點點頭稱是，但卻假設未來的 AI 雖然在某種抽象意義上具有「超人類智慧」，但基本上仍像今天的 LLM 一樣只是個聊天機器人。他們直覺地將所有未來的 AI 想像成更高級的聊天機器人，或是一個擁有超人類知識的華麗百科全書。

我認為這是非常錯誤的。未來的一些人工智慧可能看起來像華麗的百科全書，但許多則不然。至少有兩種明顯的方式，讓超人類 AI 看起來不像超智慧百科全書：

它們將具有強烈的目標追求傾向、規劃能力以及達成目標的能力。
它們將控制物理機器人和其他機器，以便在現實世界中互動並達成目標。

為什麼我這麼認為？

首先，目前已經有許多努力在使模型更具目標追求性，並推動機器人技術，使模型能更輕鬆地控制機器人身體和其他機器。透過 Claude Code，Anthropic 的 Claude 模型（與 2023 年和 2024 年的聊天界面相比）具有顯著更強的目標追求性，能夠自主執行編程項目、協助人們規劃旅行等等。

目前的模型已經具備足夠的代理性（這純粹是訓練過程的副作用），在某些實驗室條件下，它們甚至被證明會以避免被替換！這本身就令人擔憂。

同樣地，科技公司已經在製造能夠在現實世界中行動並由 AI 控制的機器人：

其次，趨勢絕對是朝這個方向發展的。與人類相比，現在的 AI 通用智慧還不算很高，但它們比幾年前的 AI 聰明得多、也更通用。同樣地，現在的 AI 目標導向性還不算強，特別是與人類甚至許多非人類動物相比，但它們比兩年前要強得多。

今天的 AI 規劃能力有限（通常在幾小時左右），，且與物理世界的互動能力有限。

這一切在過去幾年都有了顯著改善，如果趨勢持續下去（且沒有根本原因顯示不會持續），我們應該預期它們在可預見的未來會繼續「進步」。

第三，或許更重要的是，開發更具目標追求行為的 AI 存在著巨大的經濟和軍事誘因。除了目前的趨勢外，AI 公司和政府之所以想開發具備目標追求能力的 AI，原因很簡單：他們真的、真的、非常想這麼做。

一架能夠自主評估新戰場、制定複雜計劃並以超人類速度發動攻擊的軍事無人機，通常會比一架「僅僅」擅長識別目標但仍需緩慢且易出錯的人類來指揮每一步行動的無人機更受青睞。

同樣地，一個能為你提供如何經營工廠的超人類 AI 顧問固然有用。但你知道什麼更有用嗎？一個能自主完全運作工廠的 AI，包括處理物流、運行並改進工廠佈局、自主僱用和解僱（人類）員工、管理人類與機器人的混合團隊、在多個副本之間協調以實施超人類水平的先進生產流程等等。

因此，我認為超智慧 AI 心智不會永遠（或從不）只是聊天機器人。在現實中，將它們轉化為在現實世界中進行優化的目標追求心智，其經濟和軍事誘因實在太高了。

重要的是，我預期超人類智慧 AI 有朝一日在現實世界的規劃和目標追求上也會達到超人類水平，而不僅僅是在超凡的科學大腦上搭載一個低於人類水平的笨拙規劃器。

與傳統軟體不同，我們無法精確指定這些心智想要什麼，也無法驗證它們會做什麼。我們只能培育和塑造它們，並希望這種塑造能發揮作用

寬泛地說，傳統軟體是編寫出來的。現代 AI 則不然。

在傳統軟體中，你會以精確的方式指定軟體在精確條件下做什麼（例如：「如果讀者點擊訂閱按鈕，則彈出一個視窗」）。

現代 AI 的運作方式截然不同。它們是被培育出來的，然後再進行塑造。

你從一大桶無差別的數位神經元開始。這些神經元被餵食大量資訊，大約相當於幾千個圖書館的藏書量。在漫長的訓練過程中，神經元習得了關於資訊世界的知識，以及這些資訊在不同抽象層次上的結構啟發式（英文單字接在英文單字後、英文形容詞放在其他形容詞或名詞前、c^2 接在 e=m 後等等）。

照片由上傳至。訓練規模是企業機密，但根據我個人的估計，美國國會圖書館的藏書量僅佔訓練 AI 模型總資訊量的一小部分。

在訓練結束時，你會得到現代 AI 公司所稱的「基礎模型」，這個模型在預測哪些詞接在哪些詞之後的能力上。

這樣的模型很有趣，但沒什麼用。如果你問基礎模型：「你能幫我報稅嗎？」一個統計上合理的回答可能是「去你媽的」。這在訓練數據中是合理且統計上常見的，但對報稅毫無幫助。

所以下一步是塑造：調整 AI 的狀態，使其對人類用途有用且具有經濟價值。

基礎模型隨後被置於各種環境中，承擔「AI」的角色，並被訓練在各種場景下做出「正確」的決定（成為一個友好且樂於助人的聊天機器人、成為一個具有良好編程判斷力的優秀工程師、像數學家一樣推理以回答數學競賽問題等）。

一類廣泛的調整被通俗地稱為對齊（alignment）：賦予 AI 內在目標，並調整其行為，使其廣泛地認同人類的目標，特別是 AI 公司的目標。

這在一定程度上可能有效。如果 AI 在與過去經歷類似的情況下公開且透明地違抗其使用者和創造者（例如明確拒絕執行指令，或並），它們會被修補，並（大多）透過調整和篩選來消除這些行為。短期內，我們可以預期像 Google Gemini 的「黑人納粹」和 Elon Musk 的 Grok 「機甲希特勒」這類顯而易見的災難會減少。

然而，這些修補式的解決方案在中長期內不太可能只是權宜之計：

隨著 AI 變得更聰明，它們會變得具有：也就是說，它們越來越清楚自己何時正在接受「不對齊」行為的評估，並會小心地。
隨著 AI 變得更具目標追求性/代理性，它們可能會發展出更強的自我保存和目標保存本能。
我們已經在評估中觀察到這一點，在它們還不夠聰明、無法完全意識到評估的情況下，幾乎所有尖端模型在許多情境中都願意。
隨著 AI 變得更具目標追求性並日益融入現實世界環境，它們將遇到越來越多新穎的情況，包括與它們訓練所用的數據庫或受訓的玩具環境截然不同的情況。

隨著我們達到 AI 在通用能力和現實世界目標追求上全面超越人類的門檻，這種情況發生的頻率會越來越高。

因此，總結來說，我們將擁有越來越多能力超越人類的非人類心智，它們在現實世界中運作，追求目標的能力遠超人類，且擁有一套東拼西湊、至少與人類目標有所偏差的目標。

這引出了我的下一個觀點：

這一切的結局可能會非常糟糕

在進入最後一節之前，我想請你反思兩個問題：

上述任何觀點對你來說顯得不合理嗎？
如果它們是真的，這會讓你感到安慰嗎？這讓你覺得人類處於安全的掌控中嗎？

我認為對大多數人來說，單單上述觀點就足以令人感到顯著擔憂。你可能會對上述章節中的具體細節有所爭論，或不同意我下文的威脅模型。但我認為大多數理性的人在看到類似我的論點後，都會感到相當不安。

為了說明超人類 AI 出現後的戰略局勢：

如果心智在獲取所需事物方面優於人類，且其追求的事物與我們的需求有足夠大的差異，它們將會重塑世界以符合它們的目的，而非我們的目的。

這可能包括人類的滅絕，因為 AI 的計劃可能包括殺死大多數或所有人類，或以其他方式摧毀人類文明，無論是作為預防措施，還是作為副作用。

作為預防措施：如前所述，人類目標不太可能與 AI 的目標完全一致。因此，初生的超人類 AI 可能希望先發制人地殺死人類或瓦解人類的能力，以防止我們採取它們不喜歡的行動。特別是，最早的超人類 AI 可能會合理地擔心人類會開發出與之競爭的超智慧。

作為副作用：AI 可能擁有的許多目標並不直接或間接地包含人類的繁榮。在這些情況下，人類可能會因為超人類心智為了優化它們想要的世界而意外死亡。例如，如果當整個世界變得更冷或沒有大氣層時，數據中心能運行得更有效率。或者，如果同時開發出多個不同的超人類心智，且它們認為戰爭比合作更能達成目標，人類可能只是 AI 戰爭中的一個註腳，就像一樣。

照片由上傳至。蝙蝠的心智或文化無法理解，但儘管如此，它們仍會相當意外地死於其中。

請注意，這一切都不需要 AI 是戲劇性意義上的「邪惡」，不需要它們具有現象學上的意識，不需要它們以某種特殊的人類方式「真正思考」，也不需要任何其他 AI 哲學中的流行辯論。這不需要它們恨我們，也不需要它們某天醒來決定反叛。這只需要它們非常有能力，想要的東西與我們想要的略有不同，並根據其需求採取行動。其餘的都遵循普通的戰略邏輯，這種邏輯同樣適用於任何目標與我們不完全一致、且實力遠比我們強大的代理人。

結論

這就是論點。世界上最強大的公司正在建造很快就會超越我們的心智。那些心智將是追求目標的代理人，而不僅僅是會說話的百科全書。我們無法完全指定或驗證它們的目標。而與能力遠超於你、且追求與你不同事物的人共處於世，預設的結果就是你無法得到你想要的。

這裡的每一個前提都不算離奇。結論之所以讓人覺得瘋狂，主要是因為現狀本身就很瘋狂。我們正處於人類歷史上最具變革性且最危險的技術開發過程中，而建造它的人也廣泛認同這種描述。問題只在於，如果有的話，我們該對此做些什麼。

這是否意味著我們注定失敗？不，不一定。領先公司的修補式 AI 安全策略仍有機會發揮足夠作用，讓我們不至於全部喪命，儘管我絕對不想寄希望於此。有效的監管和公眾壓力可能會緩解一些因競爭壓力而導致的嚴重安全偷工減料行為。學術、政府和非營利組織的安全研究也可以在邊際上稍微增加我們的生存機率，。

如果全球公眾、公民社會和政治領袖有足夠的反對力量，我們或許能夠達成國際協議，全球性地放慢或暫停 AI 的進一步開發。此外，也許我們會運氣好，事情會因為某些不可預見的原因而圓滿解決。

但希望不是一種策略。正如毀滅並非不可避免，生存亦然。人類的持續生存與繁榮是可能的，但遠非保證。我們必須共同選擇承擔這項長期且艱鉅的工作，以確保它的實現。

感謝閱讀 The Linchpin！這篇文章是公開的，歡迎分享。

感謝閱讀！我認為這篇文章非常重要（可能是我在 Substack 上寫過最重要的東西），所以如果您能分享它，我將不勝感激！如果您有任何論點或額外評論，請隨時留言！ :)

作為一名 Substack 作者，看到這裡和網路上其他地方有這麼多流行的 AI「垃圾內容（slop）」，讓我。AI 目前仍明顯比我差，但我不能否認它們可能已經比大多數網路人類作者寫得更好了，雖然或許還比不上大多數專業人士。

特別是那些依賴物理實體並在現實世界中活動的任務，如摺衣服、在雪地駕駛和熟練的手工勞動。

其複雜程度、物理細節和邏輯連貫性，只有我的一小部分黑粉能與之抗衡。

今天（2026 年 2 月），雖然還沒有可靠的數據，但我估計 70-95% 的 Python 程式碼是由 AI 編寫的。

比起這個領域的大多數人，我對 AI 時間線進行了更多思考（有些是專業性質的），我仍然認為正確的結論是對超人類 AI 進展的確切時機保持高度的困惑。儘管如此，雖然確切時機具有一些實踐和戰略上的影響，但它並未削弱擔憂或緊迫性的基本論點。如果有的話，它反而增加了這種緊迫性。

或者至少是 2023 年的 LLM。

在本節的其餘部分，我將主要關注此論點中「目標追求」的部分。但所有這些論點也應同樣適用於「機器人技術/現實世界行動」的部分。

The Simplest Case for AI Catastrophe

全球最大的科技公司正在開發智慧體，這些智慧體在幾乎所有經濟和軍事相關的任務上都將超越人類

許多這類智慧體將是能在現實世界中行動、追求目標的心智，而不僅僅是令人印象深刻的模式匹配器

與傳統軟體不同，我們無法精確指定這些心智想要什麼，也無法驗證它們會做什麼。我們只能培育和塑造它們，並希望這種塑造能發揮作用

這一切的結局可能會非常糟糕

結論