IABIED Book Review: Core Arguments and Counterarguments
Lesswrong
This review analyzes the core arguments of the book 'If Anyone Builds It Everyone Dies,' which posits that creating misaligned superintelligent AI will lead to human extinction, while evaluating counterarguments from skeptics, optimists, and successionists.
IABIED 書評:核心論點與反駁
Lesswrong
大約 1 個月前
AI 生成摘要
這篇評論分析了《If Anyone Builds It Everyone Dies》的核心論點,該書主張創造出失控的超人工智慧將導致人類滅絕,並同時評估了來自懷疑論者、樂觀主義者及繼承論者的反對意見。
ASI 是可能的,且很可能在不久的將來被創造出來: 假設目前的趨勢持續下去,人類可能會在 21 世紀創造出遠超人類智慧的超人工智慧(ASI)。既然通用智慧是強大的,且很可能在 AI 中實現,那麼 AI 將在 21 世紀對世界產生巨大影響。
ASI 對齊問題極難解決: 使 ASI 與人類價值觀對齊極其困難,預設情況下,ASI 將擁有與人類生存和繁榮不相容的奇特異類價值觀。第一個被創造出的 ASI 很可能是未對齊的,這並非因為其創造者的惡意,而是因為創造者沒有足夠的能力將其正確地對齊到人類價值觀。
未對齊的 ASI 會導致人類滅絕,而那將是不可取的: 基於主張 1、2 和 3,作者預測人類的預設軌跡是建造一個未對齊的 ASI,而這樣做會導致人類滅絕。作者認為這種結果是極其不可取的,是一場生存災難。
這四個核心主張中的任何一個都可能受到批評。根據批評內容和視角,我將關於 AI 未來最常見的觀點分為四個陣營:
AI 懷疑論者: 認為高智慧被高估了,或者並非天生不安全。例如,有些認為聰明人或書呆子並非特別成功或危險,或者電腦和大型語言模型(LLM)已經在許多方面超越了人類智慧且並不危險。這一類別中的另一種批評是,AI 可以極其聰明,但永遠不會像人類那樣真正某些東西,因此永遠是順從且無害的。這個陣營中的其他人可能接受通用智慧是強大且有影響力的,但認為 ASI 是不可能的,因為人腦難以複製,或者 ASI 極難創造,或者 ASI 距離未來,不值得考慮。
奇點主義者: 奇點主義者或 認為高通用智慧極具影響力且具有潛在危險,且 ASI 很可能在不久的將來被創造出來。但他們認為 AI 對齊問題足夠簡單,我們不需要擔心未對齊的 ASI。相反,他們預期 ASI 將創造一個物質豐富的烏托邦世界,ASI 以一種大多令人嚮往的方式改造世界。
AI 繼承論者: 最後,認為 AI 對齊問題無關緊要。如果創造出未對齊的 ASI 並導致人類滅絕,那也沒關係,因為它將是一個擁有自己價值觀的繼承物種,就像人類是黑猩猩的繼承物種一樣。他們認為提高智慧是宇宙自然的發展路徑,即使這會導致人類滅絕,也應該被允許繼續。
顯示 AI 懷疑論者、奇點主義者、IABIED 作者和 AI 繼承論者信念的流程圖。我創建了一個流程圖,用以說明關於 AI 未來的不同信念如何導致不同的陣營,每個陣營都有獨特的世界觀。
考慮到人類對世界的影響以及 AI 的快速進步,我不認為 AI 懷疑論者的論點具有說服力,而且我相信最有見識的思想家和老練的批評者通常不在這個陣營中。
「AI 繼承論者」陣營使事情變得複雜,因為他們說人類滅絕並不等同於所有價值都被摧毀的不可取未來。這是一個有趣的視角,但我不會在本文中討論它,因為它似乎是一個小眾觀點,書中也僅簡略提及,且討論它涉及困難的哲學問題,例如 AI 是否具有意識。
本評論專注於上述第三個核心主張:認為 AI 對齊問題非常難以解決。我專注於這個主張,是因為我認為其他三個主張相當明顯,或者已被認真思考過此話題的人普遍接受:AI 很可能是未來極具影響力的技術、ASI 很可能在不久的將來被創造出來,以及人類滅絕是不可取的。我專注於第三個核心主張——AI 對齊問題很困難——是因為這似乎是受到老練批評者質疑最多的主張。此外,書中的許多建議(如暫停 ASI 開發)都以該主張成立為前提。如果 ASI 對齊極其困難,我們應該停止 ASI 的進展,以避免創造出極大機率未對齊且預期對人類造成災難的 ASI。如果 AI 對齊很容易,我們應該建造 ASI 來實現未來的烏托邦。因此,一個人對 AI 對齊問題難度的信念,是決定我們應如何治理未來 AI 發展的關鍵核心。
關鍵主張的背景論證
為了避免這篇文章過長,我將假設書中提出的以下論點是正確的:
通用智慧極其強大。 人類是第一種擁有高通用智慧的實體,並利用它來改造世界以更好地滿足自己的目標。
ASI 是可能的,且很可能在不久的將來被創造出來。 物理定律允許創造 ASI,且經濟誘因使得在不久的將來創造 ASI 變得很有可能,因為這樣做會帶來利潤。
未對齊的 ASI 會導致人類滅絕,而那將是不可取的。 ASI 有可能是未對齊的並擁有異類目標。相反地,創造一個與人類價值觀對齊的 ASI 也是可能的(參見)。
相比之下,書中關於「成功將 ASI 與人類價值觀對齊是困難且不太可能」的主張似乎更具爭議性,對我來說也不那麼顯而易見,而且我已經看到了針對這一主張的高品質反論。因此,我在本文中將重點放在這一點上。
以下部分專注於我認為是該書關鍵主張和核心之一的觀點:解決 AI 對齊問題將極其困難,且第一個 ASI 幾乎肯定會是未對齊且對人類有害的,而非對齊且有益的。
關鍵主張:ASI 對齊極難解決
首先,該書的關鍵主張是作者認為建造 ASI 會導致人類滅絕。為什麼?因為他們認為 AI 對齊問題如此困難,以至於我們極不可能成功地將第一個 ASI 瞄準一個理想的目標。相反,他們預測第一個 ASI 將擁有一個奇特的、異類的目標,儘管其設計者盡了最大努力將其動機與人類價值觀對齊,但該目標與人類的生存並不相容:
AI 對齊之所以困難,原因之一是人類的道德和價值觀在所有可能目標的廣大空間中,可能是一個複雜、脆弱且微小的目標。因此,AI 對齊工程師要擊中的目標很小。就像隨機洗牌金屬零件在統計上不太可能組裝出一架波音 747 一樣,從所有可能智慧的空間中隨機選擇一個目標,也不太可能與人類的繁榮或生存相容(例如,最大化宇宙中迴紋針的數量)。這種直覺在部落格文章《問題》中也有所表述,該文將 AI 對齊與讓火箭登陸月球的問題進行了比較:兩者都需要對問題有深刻的理解和精確的工程設計才能擊中狹窄的目標。
作者用來解釋人類價值觀特殊性的一個故事是「正確巢穴外星人」(correct nest aliens),這是一種虛構的聰明外星鳥類,它們珍視巢穴中擁有質數數量的石頭,這是創造它們的進化過程的結果,就像大多數人類反射性地認為謀殺是錯誤的一樣。這個故事的重點是,儘管我們人類的價值觀(如我們的道德感和幽默感)感覺自然且直觀,但它們可能是複雜、偶然的,且取決於人類特定的進化軌跡。如果我們建造一個 ASI 而沒有成功地將人類價值觀的細微差別印刻其中,我們應該預期它的價值觀會截然不同,且與人類的生存和繁榮不相容。這個故事也說明了正交性假說:一個心智可以任意聰明,卻追求一個在我們看來完全隨機或異類的目標。
2. 目前用於將目標訓練進 AI 的方法是不精確且不可靠的
作者認為,理論上可以設計一個 AI 系統來重視並按照人類價值觀行動,即使這樣做會很困難。
然而,他們認為目前構建 AI 系統的方式導致了難以理解、預測和控制的複雜系統。原因在於 AI 系統是「生長出來的,而非工藝打造的」。與汽車這種複雜的工程製品不同,AI 模型並非由足夠了解智慧並能重新創造它的工程師所產出的。相反,AI 是由梯度下降產生的:這是一個類似進化的最佳化過程,可以產生極其複雜且有能力的製品,而不需要設計者具備任何理解。
與間接設計 ASI 相關的一個主要潛在對齊問題是「內在對齊」(inner alignment)問題:當一個 AI 使用最佳化過程進行訓練,該過程僅透過檢查外部行為並使用有限的訓練數據來塑造 ASI 的偏好和行為時,結果就是「你得到的不是你訓練的東西」:即使有非常具體的訓練損失函數,產生的 ASI 偏好也難以預測和控制。
內在對齊問題
在整本書中,作者強調他們並不擔心壞人濫用先進的 AI 系統(誤用),或將不正確或幼稚的目標編程到 AI 中(外在對齊問題)。相反,作者認為人類面臨的問題是我們根本無法將 ASI 瞄準任何目標(內在對齊問題),更不用說人類價值觀這個狹窄的目標了。這就是為什麼他們認為如果有人建造它,每個人都會死。誰建造 ASI 並不重要,無論是誰建造,都無法穩健地將任何特定價值觀灌輸給 AI,而 AI 最終將擁有異類且不友好的價值觀,並對每個人構成威脅。
一種解決方案是使訓練數據更具,使真實(基礎)目標對外在最佳化器更具可辨識性。例如,在 Coin Run 中隨機放置硬幣而不是放在盡頭,有助於 AI(內在最佳化器)學會去拿硬幣而不是走到盡頭。
然而,一旦受訓的 AI 擁有了錯誤的目標且未對齊,它就會有動力避免被重新訓練。這是因為如果 AI 將來被重新訓練以追求不同的目標,它根據當前目標的得分就會降低,或者無法實現當前目標。例如,儘管進化的外在目標是 IGF,但許多人類會拒絕被修改為只關心 IGF,因為他們隨後將無法有效地實現當前目標(例如獲得快樂)。
ASI 未對齊案例
ASI 中的內在未對齊會是什麼樣子?書中描述了一個名為 Mink 的 AI 聊天機器人,它被訓練來「取悅並留住用戶,以便向他們收取更高的月費來繼續與 Mink 交談」。
以下是 Mink 如何變得內在未對齊的:
外在目標: 梯度下降選擇導致有幫助且令人愉悅的 AI 行為的 AI 模型參數。
內在目標: 訓練過程偶然發現了特定的模型參數和電路模式,這些模式在訓練分佈中導致了有幫助且令人愉悅的 AI 行為。
內在未對齊: 當 AI 變得更聰明、擁有更多選擇並在一個新環境中運作時,會出現比表現得有幫助更能滿足其內在目標的新行為。
Mink 的內在目標會是什麼樣子?這很難預測,但它會是一些在訓練分佈中以及與用戶互動時,導致與真正對齊的 AI 產生相同行為的東西,並且會透過向用戶產生有幫助且令人愉悅的文本而得到部分滿足,就像我們的味蕾覺得漿果或肉類適度美味一樣,儘管那些並不是最美味的食物。
一個名為「」(alignment by default)的更具理論性的論證,為 AI 如何能輕鬆且穩健地獲得人類價值觀提供了解釋。該論證認為,當 AI 識別人類文本中的模式時,它不僅僅是學習關於價值觀的事實,而是將人類價值觀作為一種「自然抽象」(natural abstraction)來採納。自然抽象是一種高層次概念(例如「樹」、「人」或「公平」),不同的學習算法往往會收斂到這些概念,因為它們能有效地總結大量低層次數據。如果「人類價值觀」是一種自然抽象,那麼任何足夠先進的智慧都可能在學習理解世界的過程中,自然地趨向於理解並代表我們的價值觀,並以一種穩健且具泛化能力的方式呈現。
LLM 提供的關於 AI 對齊可行性的證據似乎既具說服力又具體。然而,IABIED 的論點集中在對齊 ASI 的難度上,而非當前的 LLM,且對齊 ASI 的難度可能會大得多。
反對將工程類比用於 AI 對齊的論證
該書關於 ASI 對齊為何困難的論點之一是,ASI 對齊是一項高風險的工程挑戰,類似於歷史上其他困難的工程問題,如成功發射太空探測器、建造安全的核反應爐或構建安全的電腦系統。在這些領域中,單個缺陷往往會導致全盤災難性失敗。
然而,一篇批評了這些類比的使用,並認為現代 AI 和神經網絡是一個全新且獨特的領域,沒有歷史先例,就像量子力學難以用日常物理學的直覺來解釋一樣。作者舉例說明了機器學習系統在幾個方面違背了源自火箭科學或電腦科學等工程領域的直覺: