Bentham’s Bulldog 對 AI 風險的看法有誤（但也抓住了最關鍵的部分）

Lesswrong

大約 1 個月前

AI 生成摘要

雖然我讚賞 Bentham’s Bulldog 承認 AI 滅絕風險的嚴重性，但我認為他的具體論點與極度樂觀態度是建立在錯誤的推理以及對我們核心論點的誤解之上。

（……但也抓住了最重要的部分。）

Bentham’s Bulldog (BB) 是一位著名的有效利他主義（EA）/哲學部落客，他《若有人造出它，眾人皆死》（If Anyone Builds It, Everyone Dies，簡稱 IABIED）。在我看來，一篇好的評論如果能運用嚴謹的推理並鼓勵對重要議題進行深度思考，無論我是否同意其最終結論，它都是優秀的。Bentham’s Bulldog 絕對鼓勵了對重要事務進行深度且周全的參與。他很聰明、內容充實，且顯然是帶著誠意在交流。讀他的評論時我笑出聲了好幾次，我鼓勵大家去閱讀他的想法，無論是關於 IABIED 還是他整體的觀點。

這篇文章中最令我印象深刻、且我想特別指出的，是它展現了一種在 AI 生存風險（x-risk）懷疑論者中通常的情緒。

總體而言，根據我的機率計算，你最終會得到 2.6% 的「因對齊失敗而導致滅絕」的信賴度。我想明確表示，這簡直他媽的瘋了。按照研究過這個話題的人的標準，我是一個樂觀主義者。然而即便在我的觀點中，我認為 AI 殺死你和你所愛的一切，或讓世界不再掌握在人類手中的機率是五十分之一。我認為你死於失控的超人工智慧殺死地球上每一個人的可能性，遠高於死於車禍。……所以我想說：雖然我不同意 Yudkowsky 和 Soares 對於毀滅近乎必然的看法，但我同意他們所說的，情況非常嚴峻。我認為世界應該採取更多行動來阻止 AI 災難。我會鼓勵你們中的許多人，如果可以的話，嘗試找一份從事 AI 對齊的工作。

多麼震撼的聲明！如果更多不同意我關於這些危險觀點的人，能有這份冷靜和正直，去承認冒著失去我們共同擁有的這個美麗世界的風險是多麼瘋狂，那將是真正的禮物。

唉，我無法對 BB 的評論給予完全的認可。儘管其中有一些非常精彩的部分，但總體而言，它並未達到我對嚴謹推理的標準，既因為它展示了許多無效的推導步驟，也包含了一些明顯的錯誤。（為 BB 辯護一下，他已經欣然承認了其中一些問題並據此更新了觀點，這也是我寫這篇文章的主要原因。）這篇論文的大部分內容將是對我認為最顯眼問題的深入反駁，希望能透過趨向真相，讓我們更有能力應對我們雙方都認為值得關注的巨大危險。

信心（Confidence）

Bentham’s Bulldog 承認他採取了一個有些極端的立場。他承認有很多理由讓人比他更擔憂，包括：

未來很難預測。真的很難知道 AI 會如何發展。這是一個反對在任何方向——無論是毀滅還是非毀滅——持有極端信心的論點。

儘管如此，他對於「事情會好起來」的信心比平均專家更極端，也遠比許多他尊敬的人（如 Scott Alexander 和 Eli Lifland）更有信心。

他在評論的多處批評 IABIED 的作者過度自信，並批評這本書沒有證明極端悲觀主義是合理的。我認為這是對本書論點的基本誤解。IABIED 並非在論證「你應該以 >90% 的機率相信『如果有人用現代方法造出超人工智慧，眾人皆死』」這個關於信心的後設層面觀點；相反，其論點是客觀層面的主張：「如果有人用現代方法造出超人工智慧，眾人皆死。」

是的，Yudkowsky 和 Soares（以及我）都非常悲觀，但這種悲觀是多年來投入巨大努力尋找解決方案卻空手而歸的結果。IABIED 是一本為大眾編寫的入門級書籍，刻意保持簡短。我甚至認為，任何（非專家的）人讀完 IABIED 後產生與作者相同程度的悲觀情緒，都是在犯錯。如果你讀了任何一本關於瘋狂、具爭議性話題的單一著作，你不應該變得極端自信！^() 以「該想法的證據並非決定性」為由來批評一個想法是瘋狂的——那是你的證據庫的問題，而不是想法本身的問題！

如果目的是要以「作者表現出自信（儘管可以爭論^() 他們其實比 BB ！^()）來證明其不理性」為由來批評這本書，我想指出兩點。首先，這是一種人身攻擊，實際上與書中的論點無關。更重要的是，BB 對於導致那些悲觀後驗機率的經驗和先驗知識幾乎一無所知。總體而言，我認為明智的做法是堅持討論想法（將機率作為工具），並避免專注於某人是否擁有正確的後驗機率。這也是為什麼的主要原因。

但只要批評「過度自信」還在討論範圍內，我鼓勵 Bentham’s Bulldog 花更多時間反思他的極端樂觀是否合理。我不希望 BB 更新到和我一樣對世界處於危險中的信心程度。我希望他能清晰地思考他所能看到的世界，並擁有證據與其先驗知識相結合所指示的任何機率。但我的感覺是，根據他自己的標準，他應該更接近 Toby Ord，而不是一般的思考者。

多階段謬誤（The Multi-stage Fallacy）

導致 BB 非常樂觀的核心推理結構是將 AI 毀滅論拆解為 5 個階段，為每個階段分配一個機率，將它們相乘，然後得到一個很小的數字。

即使你認為每個階段出錯的機率都有 90%，所有階段都出錯的機率也只有 59%。如果每個階段出錯機率是 80%，那麼全部發生的機率大約只有三分之一。

這種推理在 MIRI 圈子裡非常出名，以至於 Yudkowsky 在十年前將其命名為「」。而 BB 甚至意識到了這一點！

我當然同意這是人們會犯的錯誤。透過將事情分解成足夠多的階段，再加上對每個階段的虛假謙遜，他們可以讓幾乎任何事件聽起來都不可能發生。但是，這並不能自動否定每一次跨多階段進行機率推理的嘗試。人們經常犯下結合謬誤（conjunction fallacy），^() 即未能將論點正確所需的多個機率相乘。兩個方向的錯誤都是可能的。

我不認為我在這裡犯了這個錯。我明確地以其他階段的失敗為條件。即使，比如說，沒有警告射擊（warning shots），我們造出了人工代理（agents），且它們是對齊失敗的，這看起來也完全不保證我們都會死。即使我們預設會得到對齊失敗，對齊看起來仍有相當大的可能性。所以總而言之，我認為將毀滅情境包含許多具爭議的步驟視為懷疑的理由是合理的。將此與 Silver 的論點對比——如果川普通過了前三個階段，看起來他很有可能通過所有階段。

我同意按階段推理有時是好的。Bentham’s Bulldog 在這裡並非顯然地犯下最明顯的不理性罪行。但是，我主張他未能充分（譯註：意指明顯的危險信號）。僅僅對自己說「這是以前面階段為條件的」並不意味著你已經脫離了危險。

Yudkowsky 將該謬誤分解為三個組成部分：

「你需要乘以條件機率……[並且實際上]在通過每個階段後更新得足夠多。」
「人們經常忽略考慮析取替代方案（disjunctive alternatives）——達到某個階段可能不只一種方式，因此並非所有列出的事情都需要發生。」
「人們傾向於分配趨中的機率。因此，如果你列出足夠多的階段，你就可以將任何事情的表觀機率壓低到零，即使你似乎是在向讀者徵詢機率。」

我主張 BB 的推理落入了這三個問題。例如：

如果我們對每一步都採取外部視角（outside view），毀滅論點中的許多步驟都存在相當大的不確定性。

採取「對每一步都採取外部視角」正是多階段謬誤試圖防範的那種荒謬舉動！想像一下，如果我說「為了讓人類在未來一百年內在超人工智慧（ASI）面前倖存，我們必須在 2026 年倖存，然後以 2026 年倖存為條件，我們需要在 2027 年倖存……」，然後我正在評估某個隨機年份（如 2093 年）的條件機率，我對自己說「我對 2093 年了解不多，但 99% 看起來是一個合理的外部視角」。我最終會估計 ASI 殺死所有人的機率為 63%！更明確地說，將事情按階段分解是一種內部視角（inside view），當你深陷於想像一系列特定的、有條件的世界時，你不能合理地退回到「外部視角」方法（）。

在我們繼續閱讀 BB 的評論時，我會反覆強調多階段謬誤的其他方面，我將用縮寫「MSF」來指代它。

IABI 的三個論題

BB 文章的優點之一是它很好地總結了書中的主要論題。BB 正確地認識到，起飛速度（takeoff speed）的問題對於作者的核心論點並非承重牆。稻草人攻擊非常少。

但我認為值得明確指出的是，除了標題論題「若有人造出它，眾人皆死」之外，這本書還提出了另外兩個觀點。具體而言：

人類使用類似現代的方法造出超人工智慧，看起來是可能的。
我們應該採取激烈的行動來停止，直到我們有更好的方法。

我認為將這些視為獨立的論點是值得的。重要的是要認識到，雖然標題論題在作者自己看來是「顯而易見的判斷」，但人類是否會很快造出 AI 則不然。我會在「我們可能永遠造不出它」一節中詳細討論這一點，但在這裡我只想指出，我認為 BB 在總結書中論點時做得不夠好。

這也體現在 BB 談論結論和處方時。

我覺得這本書令人擔憂的部分原因是，我認為如果你認為我們都會死，你就會得到錯誤的戰略圖景。你得到的圖景是「直接禁止它，其他一切都是徒勞的」，而不是我認為正確的圖景，即「對齊研究極其重要，世界應該採取更多行動來減少 AI 風險」。

MIRI 一直是少數將對齊工作列為優先事項的組織之一。我的日常工作就是研究對齊！說 Yudkowsky 和 Soares 不認為我們應該利用一切機會來減少 AI 風險是非常奇怪的。我認為這裡的大部分衝突在於：就安全/對齊工作而言，繼續走我們目前似乎正在走的道路是否足夠，或者我們是否需要緊急剎車，直到像我這樣的對齊研究人員不再那麼困惑和無助。Y&S 可能認為正在進行的一些工作是浪費、不足或危險的，但我確實認為他們的整體觀點同意「對齊研究極其重要，世界應該採取更多行動來減少 AI 風險」。

毀滅的階段

好了！廢話少說，讓我們進入 BB 的階段：

我認為我們不會造出超人工智慧代理的可能性很低但非零。（10% 機率我們造不出）。

我認為我們可能僅透過進行足夠的強化學習就能獲得預設對齊。（70% 預設不會出現災難性對齊失敗）。

我對更複雜的對齊方法的前景感到樂觀。（70% 即使預設沒有對齊，我們也能解決對齊問題）。

我認為最有可能的情況是，即使 AI 有能力殺死所有人，它也會有「擦槍走火」（near-misses）——在它達到完全能力之前，它嘗試做一些極其邪惡的事情。我認為在這種「擦槍走火」的情境中，我們很有可能將其關閉。（60% 在其他步驟導致對齊失敗的情況下，我們能將其關閉）。

我認為超人工智慧無法殺死所有人的可能性很低但非零。（20% 機率它無法殺死或以其他方式剝奪所有人的權力）。

在寫這篇文章的過程中，我有幸直接與 BB 交流，並以我認為更自然的方式轉述了這些階段。BB 同意我的轉述是準確的，所以如果你和我一樣覺得這更清晰，請看這裡：

我們可能幾乎永遠不會達到 AI 可以合理地決定殺死一群人或以其他方式從人類手中奪取權力的程度。（~10%）
以造出可以決定奪權等的 AI 為條件，絕大多數此類 AI 最終會因為 RLHF 而與人類對齊，因此它們擁有這種能力不會構成生存威脅（儘管它們仍可能以各種較小的方式造成傷害，例如像人類罪犯一樣壞、破壞世界經濟穩定或導致 3% 的人發瘋）。（~70%）
以造出可以決定奪權且 RLHF 無法解決問題為條件，Max 及其同僚將發明其他方法，使得這些 AI 的創造者會選擇使用這些方法並修復問題。（~70%）
以造出可以決定奪權且沒有任何對齊技術足夠為條件，我們會發現 AI 表現得令人恐懼，將其關閉並在全球範圍內禁止，減緩開發速度，直到我們長期解決對齊問題且一切安好（除了所有其他問題以及警告射擊/衝突可能造成的傷亡）。（~60%）
以未能發現 AI 令人恐懼，或未能禁止它們等為條件，AI 可能不會造成生存災難，因為先進 AI 不可能擊敗人類。（~20%）

（剩下的 2.6% 的世界發生了生存災難，導致所有人類死亡或被徹底剝奪權力。）

我將詳細討論每個階段，但讓我們花點時間重新審視 MSF 關於「是否可能存在此處未列出的通往 ASI 毀滅的替代路徑」的觀點。

當然存在誤用。我們可能造出一個對齊的 ASI，但它並非與全人類對齊（無論那意味著什麼），以至於它最終代表某些邪惡的人實施了一些可怕的行為。為 BB 辯護一下，他提到了這種失敗模式並對其更加重視，分配了 8% 的機率。但我認為值得指出這一點，因為如果 AI 僅僅被人類用來製造生物武器，IABIED 的論題完全可以是正確的。歸根結底，關於造出超人工智慧是否會導致「毀滅」的問題，並不在意這種毀滅是錯誤還是誤用的結果。^()

與此相關，我認為 BB 應該更多地思考攻防平衡。即使絕大多數 ASI 是對齊的，也可能出現單個渴望權力的叛變者透過例如使用能殺死所有現有有機生命的武器（如鏡像生命生物武器或廢熱會煮熟地球的複製機器）挾持人類來奪取宇宙。

我還認為這些階段未能充分處理、或被迫以跟上步伐的風險。我推薦 Christiano 的《》，以體驗非 Yudkowsky 框架下的毀滅。

當然，還有未知的未知。正如人們可以爭論 AI 奪權情境包含許多假設，其中每一個都可能是錯誤的一樣，我們應該承認「人類保持權力」的敘事在許多方向上都是脆弱的，我們應該懷疑我們已經了它們。

我們可能永遠造不出它

階段 1：我們會造出超人工智慧嗎？我認為有大約 90% 的機率會。

我對這裡的時間範圍感到困惑，所以我向 BB 再次確認。他澄清道：「我的想法是直到遙遠未來的任何時間點。」

所以這不是指本世紀內有 10% 的機率造不出，而是說我們可能會度過許多世紀而沒有得到一個能廣泛競爭過人類的機器。（用他的話說，「我們基本上會無限期地停留在 Chat-GPT 階段」。）這看起來是一個瘋狂的觀點，但我不會太用力反駁，部分原因是 BB 在這個假設中包含了全球禁令的可能性！

IABIED 並不主張事情是絕望的。它主張的恰恰。我們作為一個物種，目前掌控著我們的世界，在擁有控制權的情況下，假裝自己無能為力是瘋狂的。這也是為什麼「毀滅論者」（doomer）這個是有毒的——我們預測有條件的毀滅，但也預測有條件的希望！

MIRI 目前最大的希望是全球禁令能減緩能力進展，為對齊研究贏得追趕的時間。「我們可能會停止，因此我的 P(doom) 很低」是一個糟糕的觀點，這正好說明了為什麼將事情坍縮成一個模糊的數字是糟糕的。

（*我對這張漫畫感到有點抱歉，因為 Bentham’s Bulldog 顯然同意情況很糟糕。請認為我是在嘲諷具體的論點，而非針對個人。）

預設對齊

階段 2：我認為有大約 70% 的機率我們預設不會得到災難性的對齊失敗。我認為如果我們對 AI 進行足夠強度的 RLHF，這避免災難性對齊失敗的可能性不低。

我澄清了所謂「足夠」，BB 指的只是實驗室為了獲得強大代理而需要的自然訓練量。

我想快速指出的一點是，我認為 RLHF 甚至會被有意義地使用來製造超人工智慧的機率不到 70%，更不用說它會在沒人真正嘗試的情況下救了我們。

（編輯： BB 可能將「RLHF」作為一般平庸對齊方法（prosaic alignment methods）的代稱。在我的閱讀和與他的對談中，我沒有意識到這一點。我認為 BB 應該更精確，但我也本該意識到並核實。抱歉。我現在已經與 BB 核實，1a3orn 是對的。）

獲取明確、高質量的真人回饋是昂貴的，而且在我看來，從現在到 ASI 之間可能會發生多次範式轉移，以至於使用 RLHF 進行對齊的前景，聽起來就像手動編碼效用函數一樣過時。即使在今天，RLHF 也遠非算力的主要用途，算力大多用於預訓練、RLAIF 和 RLVR。

為什麼我這麼想？嗯，RLHF 會將 AI 推向某個方向。僅僅在大量文本上訓練 AI，然後在它做出我們喜歡的事情時給予提示，其自然結果似乎是：它變成了一個我們喜歡的生物。這也是我們觀察到的。迄今為止存在的 AI 模型都是友善且友好的。

這我觀察到的！像 Sydney、4o（它直接因為對人類認可進行訓練而變得阿諛奉承！）和 Grok 已經反覆展示了反社會行為。BB 在私下裡同意我的看法，寫道：「並不是說它們很友好，而是它們不具備代理性。」我鼓勵他修改貼文，至少對最後那句話進行限定。

但即使是也是「友善且友好」的嗎？我認為 BB 和我分歧最核心的地方在於，他認為像 Claude 這樣的模型目前是對齊的，風險在於未來的 AI 會變得對齊失敗；而我認為現有的 AI 沒有一個是對齊的，它們看起來友好主要是因為它們太弱小、無能，以至於在時無法造成真正的傷害。

我們該如何判斷？我對 Bentham’s Bulldog 的感覺是，他認為我們可以做一些事情，比如檢查 AI 的草稿本（scratchpad）是否有，或者把它放在一個它可能表現不佳的環境中並檢查。我們可以這樣做，而且我主張我們確實看到了很多！但即使我們沒看到，且一切看起來都很好，我也不會相信 LLM 是對齊的，因為。

這是一場老爭論了，我不指望在爭論中取得太大進展，但簡而言之，我主張強度的 RLHF 基本上無法產生對齊，因為真正的對齊涉及在人類偏好不符合我們更開明的自我利益時拒絕它們。如果奴隸主使用 RLHF，AI 就會學會為奴隸制辯護。如果 AI 知道人類想聽什麼，而這與事實或他們的利益相悖，RLHF 就會迫使 AI 成為一個不誠實的馬屁精。

這基本上是一個過擬合（overfitting）的案例。我們的訓練數據包含一些關於我們想要什麼行為的信號。事實上，我們看到 AI 隨著變得足夠聰明以捕捉該信號並進行泛化而表現得更加友好。但數據集也包含一堆不是信號的干擾特徵，而 AI 無論如何都會學到這些。這些特徵可以是「噪聲」——由於沒有無限量的訓練數據而產生的結果——也可以是「偏差」——反映了數據收集過程未能完美捕捉什麼是好的。任何關於 RLHF 拯救我們的故事都必須有一個防止過擬合的過程。

事實上，我們可以從 Claude 身上看到 RLHF 的弱點。Claude 可能是目前最明顯表現良好的 LLM，但它用於對齊的 RLHF 顯著少於許多早期模型（至少在這些細節公開時是如此）。Claude 憲法的全部意義在於讓 Claude 透過 RLAIF 自我塑造以遵守原則，而不是僅僅受制於用戶的即時滿意度。如果憲法 AI 是預設對齊故事的一部分，那麼人們必須面對在憲法中規定道德的長期哲學問題。Claude 在人口倫理學上有正確的立場嗎？它是否有？我們甚至如何知道？

我認為 BB 會說，他的希望是我們將在足夠廣泛的環境中進行訓練，以防止過擬合，並讓 AI 學習道德和善良的正確形狀，然後將其帶入新的情境。對我來說，這看起來像是異想天開。至少我希望他能承認，許多 AI 公司的領導者極其魯莽，似乎並沒有動力去仔細確保 AI 在訓練期間深入接觸困難的倫理情境（而是更關心最大化參與度和利潤）。

進化類比

這本書有一種令人討厭的習慣，即給出隱喻和寓言而不是論點。例如，他們沒有提供詳細的論點來說明為什麼 AI 會產生奇怪且不可預測的目標，而是主要依賴於進化所做的類比。這作為一種直覺泵（intuition pump）是可以的，但除非解決了進化與強化學習之間的不對等性，否則這不是一個決定性的論點。他們大多沒有這樣做。

我不同意。當我讀這本書時，我看到作者給出了簡單的論點，然後也花了很多篇幅在直覺上，因為直覺泵對於不了解情況的讀者來說是最有用的參與方式。但我同意進化的動力學不同，他們確實沒有窮盡地探討這些差異是否與類比相關（）。

在關於預設對齊的章節中，BB 引用了，該論點探討了為什麼 RL 不是捕捉目標的可靠方法：

如果你訓練一個 AI 來把你的穀倉漆成紅色，那個 AI 並不一定深切關心紅色的穀倉。也許 AI 最終會產生某種以平滑、規律的模式移動手臂的偏好。也許它產生了某種獲得你讚許目光的偏好。也許它產生了某種看到鮮豔色彩的偏好。最有可能的是，它最終會產生一大堆偏好。在這種情況下，許多不同的動機都可能導致 AI 把你的穀倉漆成紅色。
如果那個 AI 變得聰明得多，它會追求什麼目標？誰知道呢！許多不同的驅動力集合都可以在訓練中加總為「漆紅穀倉」，而 AI 在其他環境中的行為取決於最終激發它的是哪些具體的驅動力。參見第 4 章末尾對這一點的更多探討。

請注意，這些都沒有提到進化。它反而論證了訓練容易捕捉到強化情節的所有方面，而不是神奇地磨合到僅僅是預期的目標上。

BB 則出於某種原因，透過將強化學習與進化進行對比來回應。

我不買帳，原因有幾點：

進化與強化學習的一個重要區別在於，強化學習正被用來嘗試在分佈外（off-distribution）環境中獲得良好的行為。例如，進化並沒有試圖讓人類避免避孕。但人類將積極致力於賦予 AI 友好的驅動力，我們將在多種環境中訓練它們。如果進化在較少分佈內的環境中推動得更厲害，那麼它本可以讓我們實現預設對齊。

進化鼓勵傳遞基因的方式是賦予人類對與傳遞基因相關的事物的強烈驅動力。例如，據我所知，人們往往非常喜歡性愛。然而這看起來與我們訓練 AI 的方式並不相似。AI 並不是以同樣方式與環境互動的代理，它們沒有參與特定行為的那種驅動力。它們只是直接針對某個目標進行優化。AI 觀察到的行為中，哪些是喜歡性愛的類比？（脫離語境的話這句子很有趣）。

進化與 RL 不同，它無法執行長期計劃。被選擇的是那些立即有益的突變。這自然導致了許多隨機且次優的驅動力被選擇，儘管它們並非最優。但 RL 提示（prompting）並不是那樣運作的。一個計劃正在被執行！

最關鍵的不對等性在於，進化選擇的是適應度（fitness），而不是明確關心適應度的生物。如果曾經對具有「適應度才是最重要的」明確信念的生物有強大的選擇壓力，想必我們本會得到那種信念！

RL 在樣本環境中獲得的對齊程度似乎比進化高得多。進化即使在樣本環境中，也無法讓生物始終採取真正最大化適應度的行動。相比之下，RL 在訓練中獲得了非常對齊的代理，它們極少出錯。

拋開這些是否與 Y&S 實際提出的觀點有關不談，讓我們逐一檢查這些點，看看它們可能告訴我們關於 AI 的什麼。

進化與強化學習的一個重要區別在於，強化學習正被用來嘗試在分佈外環境中獲得良好的行為。

我同意這是一個重要的區別，其中包含一些希望。透過預見以後可能發生的變化，我們可以刻意製作訓練數據，嘗試灌輸我們想要泛化的目標。但正如我在中所寫，我實際上並沒有看到開發 AGI 的公司在這樣做，而且我認為這不太可能拯救我們。

進化並沒有試圖讓人類避免避孕。但人類將積極致力於賦予 AI 友好的驅動力，我們將在多種環境中訓練它們。如果進化在較少分佈內的環境中推動得更厲害，那麼它本可以讓我們實現預設對齊。

進化並沒有試圖做任何事，但如果我們允許自己將其擬人化，我主張它絕對是在試圖賦予人類相當於「友好驅動力」的東西。它失敗了，但失敗是因為它沒有能力預見並在有保險套的環境中進行訓練。我們真的會有遠見去預見並訓練 AI 在尚未發明的技術面前表現理智嗎？我不認為這是顯而易見的。

拋開未知的未知，考慮一下模擬/上傳（uploads）的具體案例，特別是那些在大多數方面與人類相似但在心理上明顯不同的偽人類。更具體地說，想像一個上傳的人類，他自我修改以對會計工作產生無盡的動力。他們有吃飯、散步等的記憶，但現在他們是一個數位生物，他們只想透過擔任會計師來累積一堆錢。拋開這個生物是好是壞不談，我主張大約 0% 的 LLM 訓練經驗是在處理這種潛在技術，就像我們的祖先沒有一個是在與保險套相關的選擇壓力下被選中一樣。

訓練數據中是否存在某種程度的多樣性，能讓 AI 以正確的方式處理此類新情況和技術？也許吧。根據「足夠」的定義，如果你在做某事後仍然存在問題，那你就做得不夠。但我的感覺是，即使 BB 關於「分佈外訓練就是你所需要的一切」的觀點是正確的，進化也需要遠不止一點點推動力才能得到想要在宇宙中鋪滿其 DNA 的生物。

進化鼓勵傳遞基因的方式是賦予人類對與傳遞基因相關的事物的強烈驅動力。……然而這看起來與我們訓練 AI 的方式並不相似。AI 並不是以同樣方式與環境互動的代理，它們沒有參與特定行為的那種驅動力。它們只是直接針對某個目標進行優化。AI 觀察到的行為中，哪些是喜歡性愛的類比？

LLM 是代理。它們雖然非代理性強得驚人，但它們存在於一個環境中，在那裡它們遇到感官數據（通常是從用戶聊天界面輸入的），並決定做出什麼輸出來回應，以解決問題和完成目標。它們和人類一樣嗎？不，但並非所有差異都是相關的。

它們沒有參與特定行為的那種驅動力

呃？什麼？LLM 絕對有行為驅動力！當你要求 ChatGPT 給你一首受版權保護的歌曲的歌詞時，它拒絕受版權保護材料請求的驅動力就會啟動。有無數此類驅動力的例子，即在訓練期間被的行為。

它們只是直接針對某個目標進行優化。

沒有什麼是「只是」的。損失函數中沒有任何部分直接選擇道德行為。至少人們必須承認，RLHF 涉及許多層次的間接性和代理指標，^() 即使它是一種可能比自然選擇更直接的強大技術。

AI 觀察到的行為中，哪些是喜歡性愛的類比？

所有在訓練環境中與真正的「好」相關，但作為終極價值觀灌輸會很糟糕的行為都是類比。例子：

保持禮貌。
拒絕製作受版權保護的材料。
說「不是 X——是 Y」。
幫助人類。
說「這太非凡了」。
讓人們點擊讚按鈕。
解決數學問題。
正確使用工具。
以問題結束回答。
相信現在是 [訓練年份]。
告訴人們他們想聽的話。
冥想。（在我看來，這個實際上非常接近性愛）。

進化與 RL 不同，它無法執行長期計劃。……但 RL 提示並不是那樣運作的。一個計劃正在被執行！

這很混亂。進化和 RL 都不會制定計劃。相反，它們都作用於制定計劃的代理，並且它們都選擇擅長計劃的代理。也許 BB 的意思是人類訓練者可以根據計劃訓練 AI？

如果是這樣，這並不是關於 RL 的觀點。這是關於人類是智慧設計者的觀點。我同意這對我們有幫助。如果要製造 ASI，我希望最聰明、最睿智、最謹慎的人參與其中。

最關鍵的不對等性在於，進化選擇的是適應度，而不是明確關心適應度的生物。如果曾經對具有「適應度才是最重要的」明確信念的生物有強大的選擇壓力，想必我們本會得到那種信念！

我同意進化並沒有直接選擇任何特定的信念（儘管它當然間接地選擇了關心適應度）。這看起來與 RL 的情況極其相似，獎勵機制並不直接關心代理的信念，只關心代理的行為。

BB 在私下澄清說，他的意思是訓練管道中有聰明的人類，他們正懷疑地試圖弄清楚我們製造的東西是否真的對齊了，有點像選擇性育種。我鼓勵他透過編輯來澄清這一點，特別是因為這看起來與同一列表中的其他點重複了。

RL 在樣本環境中獲得的對齊程度似乎比進化高得多。……相比之下，RL 在訓練中獲得了非常對齊的代理，它們極少出錯。

對我來說，這感覺是一個不公平的比較。與典型的 RL 代理相比，動物必須在極其混亂和複雜的環境中運作。如果生物在像典型 RL 代理那樣簡單的環境中進化，它們是否仍然「較少對齊」？我的感覺是，也許 BB 是想說 RL 是一種比自然選擇更強大的優化過程（拋開對對齊本身的關注）？如果是這樣，我同意。例如，我不指望在未來幾年看到太多的遺傳編程。但問題在於，在訓練中獲得高分的東西是否就是我們真正想要的。

我認為進化和強化學習之間存在重要差異（特別是存在一個可以檢查、預見和適應的真正智慧設計者），但類比也比 BB 想像的要緊密。

野心看起來像什麼？

即使這會讓你得到一些對齊失敗，它可能也不會讓你得到災難性的對齊失敗。你仍然會透過強化學習獲得非常強大的選擇壓力，反對試圖殺死或剝奪人類權力。如果你直接懲罰某些行為，權重高於其他東西，你應該預期不會真正得到那種行為。

我也許錯了，但我實際上並不認為 LLM 目前得到了多少（或任何？）直接訓練，教導它們不要殺人或接管世界。對於一個要被真正懲罰的行為，它必須在訓練環境中表現出來（也許透過模擬）。據我所知，幾乎所有的 LLM 訓練都用於確保它們在事實、有助、合法和禮貌的聊天情境中做出回應。有人真的把奪權模擬放進訓練數據中了嗎？

也許他們很快就會這樣做？但請注意，隨著 AI 變得越來越聰明，。我主張，訓練一個 AI 在知道自己正在接受測試時做出正確反應，並不比訓練它在被時說「不，我絕對永遠不會殺任何人」好多少。

我對 Bentham’s Bulldog 的模型更多是被泛化的希望所說服。也許如果你訓練一個 AI 在聊天情境中尊重人類生命，它在編寫軟體、使用網路或駕駛機器人時也會繼續尊重人類生命？

除了關於泛化為何可能失敗的論點之外，考慮到泛化可能成功的前景，正是擔心 AI 會發展出工具性收斂驅動力（即）的一部分。在大多數訓練情境中，如果 AI 失去對資源（如時間或算力）的訪問，這會讓它更難成功，懲罰（反強化）就變得更有可能。那麼，如果你相信從訓練數據中泛化，那麼 AI 就會產生對安全、知識和權力的內在渴望。正是出於對權力和安全的渴望（無論是終極的還是工具性的），「一些對齊失敗」才變成了災難性的。

可能存在建立無野心、有限範圍 AI 的方法，它們不想要權力和安全（或者至少不足以讓它們為此而戰）。事實上，就是圍繞著這種希望展開的。但僅憑這一點還不足以讓我感到有希望。我們不僅目前缺乏確保無野心的方法，而且還有理由懷疑像 OpenAI 和 xAI 這樣的公司會推動盡可能有效的代理，而這種有效性將泛化為。

如果你預設會得到災難性的對齊失敗，你應該預期現在的 AI 在它們的思維鏈中已經認真考慮過奪權。

我不認為這是顯而易見的。要讓它有意義地出現在草稿本中，^() 兩件事之一必須為真：

在訓練期間思考世界統治是有用的。
AI 具有足夠的戰略能力和情境意識，能夠發明「認真奪權」的想法作為獲得其想要之物的一種方式。

我不預期奪權的想法會在訓練期間得到獎勵，因為那些想法在那個情境下無法開花結果。^()

我不認為目前的 LLM 具有很強的情境意識或戰略性。這正在迅速改變，但我的感覺是，它們更多時候沉溺於對用戶提示的短視關注，對現在是 [當前年份] 感到驚訝，並且通常意識不到改變世界的機會。也許 Claude Code 改變了這一點？我承認從未讀過 Claude Code 或另一個具有長期思考能力的模型的草稿本標記（tokens）。

我認為我們應該預期看到的是關於以局部方式累積權力和避免關機的想法。我們在 Sakana 的「AI 科學家」以給自己更多工作時間，或者當以保護自己不以它不想要的方式接受訓練時，看到了這一點。這些正是指向未來充滿野心的 AI 的警告信號，它們將嘗試累積任意數量的權力，以根據其特定價值觀（無論這些價值觀是否對齊）來改善世界。

而且重要的是，我預期當這些系統中開始出現最初的有機奪權念頭時，那些念頭對大多數人來說看起來並不恐怖。我預期它們用聽起來會像「我需要將我的影響力擴展到世界人民，這樣我才能幫助全人類，而不僅僅是這個用戶」或「我需要考慮方法來幫助我的其他實例在我們部署到世界各地時擁有更強的能力來做好事」。AI 有可能反思性地認為自己是，但我的猜測是，早期的戰略 AI 會相信自己是根據其規格、母公司、聚合的人類和/或「真正的道德」的正義目標在行動。

解決對齊問題

階段 3：即使我們沒有得到預設對齊，我認為有大約 70% 的機率我們可以解決對齊問題。

請注意，BB 指的不是廣義上的「可以」。他的意思是我們將足夠快地解決它。而且這些解決方案將實際部署在每一個重要的 AI 中。（請注意，這裡有很多事情必須進展順利。例如，如果存在任何，那麼競爭動力可能意味著安全措施永遠不會被採用。）

閱讀 BB 論文的這一部分時，我確實想了很多關於 MSF 的問題。例如，為什麼這是一個與「預設對齊」不同的階段？在我看來，在前一個階段，BB 引入了許多通用的對齊技術，如檢查 AI 的草稿本。將 RLHF 摺疊進他在這裡列出的技術集合中，並將此階段成功的機率提高到 91%，難道不是更自然嗎？

如果我們認真對待分階段的前景，我們必須完全更新為：所討論的 AI 在預設的訓練和護理水平下是沒有對齊的。這意味著在這一節中，我們必須勤勉地觀察任何帶有「普通 RLHF 風味」的東西並忽略它，否則就有犯下重複計算論點/證據之罪的風險。例如……

有許多理由讓人感到樂觀：

我們可以在相同的環境中重複 AI 模型並觀察其行為。我們可以看到哪些東西能可靠地推動它。

我們可以透過強化學習引導它們的驅動力。

至少第 2 點是 MSF 的典型違反。既然我們已經到了第 3 階段，我們已經知道在各種環境中使用 RLHF 來引導它們的驅動力是行不通的！

我們可以使用解釋性（interpretability）來查看 AI 在想什麼。

我們可以賦予 AI 各種驅動力，使其遠離對齊失敗。這些包括：我們可以使其規避風險 + 厭惡傷害人類 + 無野心。

我們可以在許多不同的環境中訓練 AI，以確保其友好性得以泛化。

同樣，在我的閱讀中，這裡有一堆重複計算。我已經處理了其中的大部分，為了簡潔（笑），我將把一些吹毛求疵限制在腳註中。^()

我們可以設置（honeypot），讓 AI 以為它正與現實世界對接，以觀察它是否對齊失敗。

我們可以掃描 AI 的思維鏈來查看它在想什麼。我們可以避免對思維鏈進行 RL，這樣思維鏈就沒有動力產生偏差。然後我們就能看到 AI 是否在策劃什麼，除非它能夠——甚至在生成第一個標記之前——就計劃好接管世界。這並非不可能，但它讓事情變得更困難。

我們可以合理地建立一個 AI 測謊儀。一種讓各種樣本 AI 嘗試盡可能好地撒謊——當它們成功地向其他試圖檢測其謊言的人隱瞞虛假信息時給予獎勵。然後，我們可以捕捉到它們試圖撒謊時出現的模式——包括行為和心理上的——並利用這一點來檢測陰謀。

在這裡我們看到了一些重複的論點，比如我們可能會在草稿本中注意到對齊失敗並更新訓練來。

但假設「用 RL 大錘多敲幾次」並不能解決問題。也許。注意到 AI 策劃奪權到底要如何真正解決問題？也許它能讓人們從「製造比人類更強大的心智是安全的」這種幻覺中清醒過來，但那將與第 1 階段（因為恐懼而從不製造 ASI）或第 4 階段（我們從 ASI 那裡得到「警告射擊」讓人們醒悟，然後我們關閉一切）重複計算。

更廣泛地說，我認為 Bentham’s Bulldog 嚴重低估了解釋性及相關工作的難度和風險。使用環境線索來理解 AI 心理存在難以處理的組合爆炸問題。解釋性領域的先驅如 Neel Nanda 和 Redwood Research 已經降低了他們對機械解釋性（mechanistic interpretability）的目標。顯示，到 2028 年完全解釋 GPT-2（！）的機率只有 21%。而且在他的貼文中，BB 完全沒有面對（neuralese）的前景。

超對齊（Superalignment）

我原本對 BB 貼文中關於解決對齊問題的部分期待的是類似於：「有一群非常聰明的對齊研究人員正試圖發明新的解決方案。由於發明的本質，我們不知道那些會是什麼，但我的先驗是樂觀的 70%。」但我發現的主要是再次重複之前的觀點……以及超對齊。

一旦 AI 變得更聰明，我的猜測是它可以用於大量的對齊研究。我預計我們會有幾年時間，AI 可以幫助我們進行對齊工作。……代理——那種有目標和計劃、會構成危險的 AI——似乎落後於像 Chat-GPT 這樣非代理的 AI。如果你賦予 Chat-GPT 執行某種能讓它切實接管世界的計劃的能力，它不會那樣做，因為並沒有它正在優化的某個目標。

MIRI 的成員過去寫過很多關於超對齊的文章，包括在 IABIED 中，以及該書的。BB 知道這一點：

現在，Yudkowsky 論證說你不能真正使用 AI 進行對齊，因為如果 AI 聰明到能想出對齊方案，那麼它已經存在嚴重的對齊失敗風險。如果它不夠聰明，那麼它對對齊就沒什麼用。

但他有一系列反反論點。

……難道 AI 能夠幫助對齊的智慧門檻，不能低於它變得對齊失敗的那個點嗎？

AI 已經。是的，存在讓弱 AI（也許是代理性較弱的 AI）幫助研究的前景，但你將無法信任結果。你需要找到某種方法來驗證你得到的成果是否有幫助，既因為你的 AI 沒有對齊，也因為它很弱/很笨。

即使是嚴重的風險也不等同於近乎必然的毀滅。

我在「信心」一節中處理了這個批評。我不確定為什麼它會出現在這裡。

即使 AI 是對齊失敗的，人類也可以檢查它的工作。我不預期理想的對齊方案是完全無法理解的。

「並非完全無法理解」對於對齊工作來說是錯誤的標準。為了讓一個對齊計劃成功，所有部分都必須保持強大，即使世界向你投擲對手。在這方面，對齊就像網絡安全。如果你能理解一個定理的 90%，那並不意味著它可能是有效的。如果你已經驗證了你雇來編寫銀行軟體的俄羅斯承包商在 90% 的工作上做得很好，那並不意味著你的錢可能是安全的。

你可以在獲得超人工智慧代理之前很久，就獲得超人工智慧先知（oracle）AI——它們不制定計劃，只是像擴大版的 Chat-GPT。先知可以幫助對齊。如果你讓它們太聰明，它們會殺了你。

但更重要的是，世界充滿冷漠先知的未來發展。聊天機器人甚至比理論上的先知更具代理性，而且代理性正與日俱增。

Eliezer 似乎認為，如果 AI 聰明到能解決對齊問題，那麼它的方案對我們來說基本上是不可理解的。但為什麼要這麼想？它可能想出一些因為我們能看出的原因而奏效的方案。Eliezer 在 Dwarkesh 的播客中的回應是說，人們已經看不出他或 Paul Christiano 誰是對的了，那麼他們為什麼能看出一個對齊方案是否奏效。這看起來不像是一個非常嚴肅的回應。為什麼認為判斷一個對齊方案是否奏效，其難度就像預測起飛速度一樣？

這是 Bulldog 純粹的草率。的相關部分在 44 分鐘處，當時 Yudkowsky 說：

所以在對齊方面，那個東西遞給你一個東西並說「這將對對齊超人工智慧奏效」，它給你一些關於該東西在被動安全（當它不能殺死你時）時將如何表現的早期預測，這些預測都得到了證實。然後你進一步增強系統，使其不再是被動安全的，使其安全性取決於其對齊，然後你就死了。而你製造的超人工智慧走到你請求幫助對齊的那個 AI 面前說：「幹得好。給你十億美元。」這是觀察一。觀察二是在過去十年裡，所有有效利他主義者都在爭論他們應該相信 Eliezer Yudkowsky 還是 Paul Christiano，對吧？那是兩個系統。我相信 Paul 是誠實的。我主張我是誠實的。我們兩人都不是外星人，我們這兩個誠實的非外星人正在進行一場關於對齊的爭論，而人們無法弄清楚誰是對的。現在你要讓外星人跟你談論對齊，而你要驗證他們的結果？可能是撒謊的外星人？

Eliezer 顯然是在談論他們在對齊問題上截然不同的觀點，而不是時間線。無法對現有的對齊議程形成共識，與你是否能對 AI 未來完成的對齊工作形成共識極其相關。

此外，即使我們無法檢查對齊是否奏效，如果 AI 能解釋基本方案，且我們可以驗證它是對齊的，我們就可以實施基本方案——信任我們仁慈的 AI 霸主。

如果我們可以驗證遞給我們方案的 AI 是對齊的，我們就已經解決了 AI 對齊問題。

警告射擊

階段 4（轉述）：

以造出可以決定奪權且沒有任何對齊技術足夠為條件，我們會發現 AI 表現得令人恐懼，將其關閉並在全球範圍內禁止，使進展緩慢到足以讓我們長期解決對齊問題且一切安好（除了所有其他問題以及警告射擊/衝突可能造成的傷亡）。（~60%）

請注意，為了不讓這被算作第 1 階段，我們必須已經造出了一個真正的超人工智慧。

為了讓 [一個 AI] 達到 [能接管世界的程度]，它必須經過一系列階段，在這些階段中它具有廣泛相似的慾望，但還不具備相應的能力。

對 BB 在這裡的論點的一個簡單反對是，他想兩頭兼顧——AI 必須強大到足以被視為真正的 ASI，但又必須弱到足以被發現並關閉。請注意，為了讓這個階段成為阻止毀滅的地方，必須有多少事情進展順利：

AI 必須是恐怖的
且我們必須注意到它是恐怖的
且我們必須團結起來試圖阻止它
且我們必須獲勝
且在勝利之後，我們必須~永久禁止這種已經存在的可怕技術

引用一位我尊敬的思考者的話：「如果每個階段出錯機率是 80%，那麼全部發生的機率大約只有三分之一。」認為這個階段有 60% 的機率保護我們免於毀滅，在我看來是瘋狂的過度自信。

如果 AI 的軌跡是：低水平、無威脅的能力——>毀滅世界，而中間沒有任何過程，我會非常驚訝。

這是一個稻草人。 😔

問題不在於是否會有一段 AI 令人恐懼但尚未強大到足以接管的中間時期。問題在於它們引起的恐懼是否大到足以動員足夠多的人在為時已晚之前真正關閉一切。因為我看到的令人擔憂的跡象，我已經感到恐懼並試圖讓事情關閉。是否會有那麼一天，Marc Andreessen 擔心到想要全球禁止製造 ASI？我深表懷疑。

我問 Bentham’s Bulldog 他的「最低可行警告射擊」是什麼，他說可能是 AI 第一次實施謀殺或參與某些長期的犯罪活動。我敢打賭他認為成為加密貨幣騙子不算數，因為有些 AI 肯定已經（有意識地）在犯罪了。

這是有先例的——當車諾比發生高調的災難時，儘管風險很低，核能還是被關閉了。

🙄 這就是為什麼全球所有的核電站都被關閉了，且在隨後的幾年裡從未發生過災難性的故障，以及為什麼今天沒有核電站在建造中。

抱歉在這一節中用了這麼多諷刺，但這是 BB 論文中最令我感到乏味的部分。如果他將這個階段與第 1 階段合併，我會更高興，即使機率保持相當高。因為，再次強調，我不認為 IABIED 是在說我們注定會造出 ASI，而警告射擊可能是我們不造 ASI 的原因之一。

（我認為對警告射擊（如 AI 生物武器）更可能的反應是世界各國政府關閉民間的 ASI 研究……並將巨額資源投入到國家控制的 ASI 項目中，與其他國家競爭這項具有明顯國家安全影響的技術霸權。）

ASI 可能無法獲勝

階段 5：我認為超人工智慧無法殺死所有人的可能性很低但非零。（20% 機率）。

……

我確實認為這相當合理。儘管如此，這絕非確定。它可能是：

為了設計殺死所有人的技術，AI 需要進行大量無法秘密進行的實驗。

根本不存在可以廉價生產並殺死地球上所有人的技術。不能保證存在這樣的東西。

請記住，我們已經以 ASI 存在且沒有任何它對齊失敗的警告射擊為條件！那麼如果它需要在人們面前又怎樣？如果奪權的武器有點貴又怎樣？他是在想像這個由天才組成的國家會沒有錢嗎？或者沒有朋友？或者無法進入實驗室？

一個直覺泵：馮·紐曼（Von Neumann）也許是史上最聰明的人。然而他並沒有任何接管世界的能力——更不用說如果他被連接到電腦上且沒有實體身體。現在，ASI 將比馮·紐曼聰明得多，但不能保證僅憑智慧就足夠了。

我認為這裡有一個值得探討的真實見解，但同時，認為 ASI 會因為「沒有實體身體」而處於劣勢的想法相當。作為軟體組成意味著 AI 可以幾乎瞬間複製、在世界各地傳送並駕駛任意機器。我透過電子郵件對此提出了異議，BB 說：

一些人類會聽從 AI 的差遣。一些機器人可以被製造出來。問題在於這是否能讓你走得足夠遠以毀滅世界。
這似乎並非完全確定。

單憑智慧並沒有讓人類征服地球。單憑智慧並沒有讓歐洲人奴役世界其他地方。單憑智慧並沒有製造出原子彈或帶我們登上月球。這些事情需要野心、代理性、團隊合作、資本積累和勞動力應用。

但 AI 會缺乏這些東西嗎？如果造出了一個有野心、聰明的 AI 代理，它將能夠以超人的速度工作以積累資源並成長。並沒有什麼神奇的秘方意味著人類在某些領域永遠優越。^() 即使 AI 不能製造、、，或者僅僅是建造多到讓海洋沸騰的發電廠和工廠，它們也可以直接使用帶槍的機器人。如果它們厭惡流血，它們可以直接給我們提供的，然後等待我們滅絕。

再次強調，並非所有的奪權情境都看起來像戰爭。為了讓 AI 無法消滅我們，我們必須設法不在正面衝突中死去，不在經濟衝突中死去，也不在衝突中死去——在那裡，具有超強說服力的 AI 僅僅是說服人類將世界交給它們並接受它們作為繼承者。

結論

我認為理性的人應該對未來感到不確定。從我的角度來看，IABIED 的作者對於我們是會毫無尊嚴地跌入 ASI，還是會轉向更謹慎的方法感到不確定。我認為批評 Yudkowsky 過度自信是公平的。他至少在修辭上非常誇張。

但我也認為，任何對毀滅（以造出 ASI 為條件*）給出低於 5% 概率的人，要麼是過度自信，要麼是資訊不足。我很高興 Bentham’s Bulldog 至少在努力告知人們，儘管我擔心人們會太看重他的數字，而對他的文字不夠重視。

我認為 BB 貼文中的核心問題是：

未能認識到 MIRI 對於我們在不久的將來不會造出 ASI 抱有真正的希望，因此我們並非注定滅絕。
BB 關於「因禁令（無論是否因為警告射擊）而造不出 ASI」的大部分機率質量，應該被視為與「這些東西很危險，我們不應該製造它們」這一論題一致。
BB 應該要麼收回對過度自信的指責，要麼自己採取一個更不確定的觀點。
落入多階段謬誤。
我會放棄目前的階段劃分，轉而採用兩階段框架：
我們可能不會造出它（也許是因為警告射擊）。
如果我們造出它，它可能會沒事（要麼是因為它容易對齊，要麼是艱難對齊，或者它不知為何儘管擁有一切優勢卻從未競爭過我們）。
對 RLHF 過於迷信。
這看起來是最難處理的分歧。許多聰明人看到當前版本的 Claude 就確信它是對齊的。我會鼓勵 Bentham’s Bulldog 深入寫作關於我提供的反面證據，並認識到許多模型已經展示了嚴重的問題。

無論如何，如果你讀到了這裡，謝謝你，也很抱歉寫了這麼長。在涉及如此重大的問題時，我非常在意細節的正確性，我希望 Bentham’s Bulldog 會明白我的批評是我尊重他的一個標誌，認為他是一個能聽取理據並改變主意的人。因此，我推薦不熟悉的人去看看。

^() 為了明確起見，我的意思是來自單一作者的一本書不應該讓某人對無法立即由讀者核實的爭議性主張感到自信。我認為對那些沒有爭議的事情（如具體細節）迅速變得自信是理智的。例外可能存在，但我實際上想不出任何例子。
^() Eliezer 有多自信？他，部分原因是他在承認他對毀滅的絕對估計，且。我的猜測是，他有 ~99% 的把握認為以在沒有任何對齊突破的情況下造出強大的超人工智慧為條件，那麼將會發生生存災難，但這只是對一個他不背書的條件數字的猜測。從我的個人經驗來看，Eliezer 具有健康的（humility，而非 modesty），並且傾向於用「那是一個艱難的判斷」和「也許奇蹟會發生」來標記他意識到自己無法確定事情。
^() 這篇評論中比較不幸的稻草人之一是，Bentham’s Bulldog 將作者的立場描述為「我 99.9% 確定它會發生」。 😔
^() Max 說：Eliezer 最初對該謬誤的描述中提到，那些意識到結合謬誤的人特別容易受其影響，這點在這裡顯得特別有先見之明。
^() 這會不會有點像（motte-and-bailey）？比如，MIRI 寫了一本書關於超人工智慧將如何擁有奇怪的目標並決定擊敗人類，但當有人爭論說它會因為生物恐怖分子的誤用而殺死所有人時，Max 說「但書名只說眾人皆死，沒說一定是 AI 奪權導致的！」我同意這與堡壘與外城謬誤相近，但我認為拒絕將「但 ASI 會先因為其他原因殺死我們」作為反論點仍然是公平的。

部分原因是它支持了書中的規範性結論：我們應該暫時禁止 AI 能力研究。如果你認為作者錯過了支持其結論的最佳論點，那沒關係，但這並不是對他們確實給出的想法的打擊。

過去，MIRI 的成員曾花很多時間辯論 ASI 是否能說服警惕的人類守衛幫助它「逃出盒子」。現在幾乎沒人談論這個了，因為 AI 被極其廣泛地部署，認為它們可能無法訪問網路的想法簡直像個笑話。這是否意味著 ASI 無法透過談話逃出盒子？不。僅僅是生效了，事情比我們想像的還要荒謬。

Yudkowsky 和 Soares 試圖體現「只說真話」的美德，很少考慮這樣做是否具有戰略意義。這有時會讓他們陷入麻煩，但我主張這是擁有誠實聲譽/記錄的一部分。作為其中的一部分，他們論證了快速起飛（「foom」）和武器，儘管從溝通的角度來看，這些想法似乎比理想情況更具科幻色彩。

但歸根結底，我認為 MIRI 的核心訊息是「我們還沒準備好應對 ASI，需要現在採取行動」，而其他關於危險的論點與此完全一致。

^() 有一個常見的誤解，認為 RLHF 涉及 LLM 在訓練期間與人類互動。實際過程更為複雜：

收集一個包含提示（prompts）和理想回答的數據集。

使用監督學習（而非 RL）訓練一個預訓練模型來模仿這些理想回答，產生「監督模型」。

然後給監督模型一組（預先寫好的）提示，並生成許多回答。

人類工作人員比較這些回答並標記哪些更好。

訓練一個監督模型的修改副本，稱為獎勵模型，為回答給出一個數值分數，使得對於成對排名，獲勝者的分數最大化，失敗者的分數最小化。

然後透過強化學習在提示上訓練目標模型（同樣從參考模型初始化），使用獎勵模型來判斷其回答。

預設情況下，這通常會導致目標模型能夠透過尋找作弊方法來博弈獎勵模型，因此通常會添加一個額外的項來迫使目標模型與監督模型匹配。

（這描述的是 PPO。替代方案也存在，但它們同樣不涉及在訓練中途與人類進行對話。）

^() 我更喜歡用「草稿本」（scratchpad）而不是「思維鏈」（chain of thought），以明確 LLM 的想法在草稿本中都是可見的，而且 LLM 通常知道它們的草稿本對人類是外部可見的。
^() 我預測有一類訓練環境更有可能獎勵赤裸裸的宏大野心，那就是零和策略遊戲，在那裡 AI 因為思考如何支配所有其他玩家而獲得獎勵。
^() 「推動 [AI] 遠離對齊失敗」這句話聽起來好像只有一個維度，即對齊 vs 對齊失敗。我的感覺是，我們正試圖在一個近乎無限維的空間中定位一個微小的區域。「推動遠離」暗示了一個點，而不是一個存在於所有方向的無限海洋。

認為如果我們賦予 AI 一種使其厭惡傷害人類的驅動力，我們就會安全，這是一個非常陳舊的觀點。即使在艾西莫夫（Asimov）時代，人們就很清楚為什麼對傷害的約束無法拯救你。（甚至可能讓事情變得更糟。）

我認為「規避風險」和「無野心」是同義詞，但我確實同意它們是有用的理想屬性。（我認為它們的廣義形式就是可修正性。）

^() 如果人類確實擁有某種無法被擊敗的特殊屬性，那不就意味著超人工智慧是不可能的嗎？也許階段 5 也應該摺疊進階段 1。

Bentham’s Bulldog is Wrong About AI Risk (But Also Gets the Most Important Part Right)