Bentham’s Bulldog is Wrong About AI Risk (But Also Gets the Most Important Part Right)
Lesswrong
While I appreciate Bentham’s Bulldog for acknowledging the gravity of AI extinction risks, I find his specific arguments and extreme optimism to be based on flawed reasoning and a misunderstanding of our core thesis.
Bentham’s Bulldog 對 AI 風險的看法有誤(但也抓住了最關鍵的部分)
Lesswrong
大約 1 個月前
AI 生成摘要
雖然我讚賞 Bentham’s Bulldog 承認 AI 滅絕風險的嚴重性,但我認為他的具體論點與極度樂觀態度是建立在錯誤的推理以及對我們核心論點的誤解之上。
這篇文章中最令我印象深刻、且我想特別指出的,是它展現了一種在 AI 生存風險(x-risk)懷疑論者中通常的情緒。
總體而言,根據我的機率計算,你最終會得到 2.6% 的「因對齊失敗而導致滅絕」的信賴度。我想明確表示,這簡直他媽的瘋了。按照研究過這個話題的人的標準,我是一個樂觀主義者。然而即便在我的觀點中,我認為 AI 殺死你和你所愛的一切,或讓世界不再掌握在人類手中的機率是五十分之一。我認為你死於失控的超人工智慧殺死地球上每一個人的可能性,遠高於死於車禍。……所以我想說:雖然我不同意 Yudkowsky 和 Soares 對於毀滅近乎必然的看法,但我同意他們所說的,情況非常嚴峻。我認為世界應該採取更多行動來阻止 AI 災難。我會鼓勵你們中的許多人,如果可以的話,嘗試找一份從事 AI 對齊的工作。
但即使是 也是「友善且友好」的嗎?我認為 BB 和我分歧最核心的地方在於,他認為像 Claude 這樣的模型目前是對齊的,風險在於未來的 AI 會變得對齊失敗;而我認為現有的 AI 沒有一個是對齊的,它們看起來友好主要是因為它們太弱小、無能,以至於在時無法造成真正的傷害。
我們該如何判斷?我對 Bentham’s Bulldog 的感覺是,他認為我們可以做一些事情,比如檢查 AI 的草稿本(scratchpad)是否有,或者把它放在一個它可能表現不佳的環境中並檢查。我們可以這樣做,而且我主張我們確實看到了很多!但即使我們沒看到,且一切看起來都很好,我也不會相信 LLM 是對齊的,因為。
這是一場老爭論了,我不指望在爭論中取得太大進展,但簡而言之,我主張強度的 RLHF 基本上無法產生對齊,因為真正的對齊涉及在人類偏好不符合我們更開明的自我利益時拒絕它們。如果奴隸主使用 RLHF,AI 就會學會為奴隸制辯護。如果 AI 知道人類想聽什麼,而這與事實或他們的利益相悖,RLHF 就會迫使 AI 成為一個不誠實的馬屁精。
這基本上是一個過擬合(overfitting)的案例。我們的訓練數據包含一些關於我們想要什麼行為的信號。事實上,我們看到 AI 隨著變得足夠聰明以捕捉該信號並進行泛化而表現得更加友好。但數據集也包含一堆不是信號的干擾特徵,而 AI 無論如何都會學到這些。這些特徵可以是「噪聲」——由於沒有無限量的訓練數據而產生的結果——也可以是「偏差」——反映了數據收集過程未能完美捕捉什麼是好的。任何關於 RLHF 拯救我們的故事都必須有一個防止過擬合的過程。
事實上,我們可以從 Claude 身上看到 RLHF 的弱點。Claude 可能是目前最明顯表現良好的 LLM,但它用於對齊的 RLHF 顯著少於許多早期模型(至少在這些細節公開時是如此)。Claude 憲法的全部意義在於讓 Claude 透過 RLAIF 自我塑造以遵守原則,而不是僅僅受制於用戶的即時滿意度。如果憲法 AI 是預設對齊故事的一部分,那麼人們必須面對在憲法中規定道德的長期哲學問題。Claude 在人口倫理學上有正確的立場嗎?它是否有?我們甚至如何知道?
我認為 BB 會說,他的希望是我們將在足夠廣泛的環境中進行訓練,以防止過擬合,並讓 AI 學習道德和善良的正確形狀,然後將其帶入新的情境。對我來說,這看起來像是異想天開。至少我希望他能承認,許多 AI 公司的領導者極其魯莽,似乎並沒有動力去仔細確保 AI 在訓練期間深入接觸困難的倫理情境(而是更關心最大化參與度和利潤)。
進化類比
這本書有一種令人討厭的習慣,即給出隱喻和寓言而不是論點。例如,他們沒有提供詳細的論點來說明為什麼 AI 會產生奇怪且不可預測的目標,而是主要依賴於進化所做的類比。這作為一種直覺泵(intuition pump)是可以的,但除非解決了進化與強化學習之間的不對等性,否則這不是一個決定性的論點。他們大多沒有這樣做。
如果你訓練一個 AI 來把你的穀倉漆成紅色,那個 AI 並不一定深切關心紅色的穀倉。也許 AI 最終會產生某種以平滑、規律的模式移動手臂的偏好。也許它產生了某種獲得你讚許目光的偏好。也許它產生了某種看到鮮豔色彩的偏好。最有可能的是,它最終會產生一大堆偏好。在這種情況下,許多不同的動機都可能導致 AI 把你的穀倉漆成紅色。
如果那個 AI 變得聰明得多,它會追求什麼目標?誰知道呢!許多不同的驅動力集合都可以在訓練中加總為「漆紅穀倉」,而 AI 在其他環境中的行為取決於最終激發它的是哪些具體的驅動力。參見第 4 章末尾對這一點的更多探討。
進化與強化學習的一個重要區別在於,強化學習正被用來嘗試在分佈外(off-distribution)環境中獲得良好的行為。例如,進化並沒有試圖讓人類避免避孕。但人類將積極致力於賦予 AI 友好的驅動力,我們將在多種環境中訓練它們。如果進化在較少分佈內的環境中推動得更厲害,那麼它本可以讓我們實現預設對齊。
進化鼓勵傳遞基因的方式是賦予人類對與傳遞基因相關的事物的強烈驅動力。例如,據我所知,人們往往非常喜歡性愛。然而這看起來與我們訓練 AI 的方式並不相似。AI 並不是以同樣方式與環境互動的代理,它們沒有參與特定行為的那種驅動力。它們只是直接針對某個目標進行優化。AI 觀察到的行為中,哪些是喜歡性愛的類比?(脫離語境的話這句子很有趣)。
訓練數據中是否存在某種程度的多樣性,能讓 AI 以正確的方式處理此類新情況和技術?也許吧。根據「足夠」的定義,如果你在做某事後仍然存在問題,那你就做得不夠。但我的感覺是,即使 BB 關於「分佈外訓練就是你所需要的一切」的觀點是正確的,進化也需要遠不止一點點推動力才能得到想要在宇宙中鋪滿其 DNA 的生物。
進化鼓勵傳遞基因的方式是賦予人類對與傳遞基因相關的事物的強烈驅動力。……然而這看起來與我們訓練 AI 的方式並不相似。AI 並不是以同樣方式與環境互動的代理,它們沒有參與特定行為的那種驅動力。它們只是直接針對某個目標進行優化。AI 觀察到的行為中,哪些是喜歡性愛的類比?
也許他們很快就會這樣做?但請注意,隨著 AI 變得越來越聰明,。我主張,訓練一個 AI 在知道自己正在接受測試時做出正確反應,並不比訓練它在被時說「不,我絕對永遠不會殺任何人」好多少。
我對 Bentham’s Bulldog 的模型更多是被泛化的希望所說服。也許如果你訓練一個 AI 在聊天情境中尊重人類生命,它在編寫軟體、使用網路或駕駛機器人時也會繼續尊重人類生命?
除了關於泛化為何可能失敗的論點之外,考慮到泛化可能成功的前景,正是擔心 AI 會發展出工具性收斂驅動力(即 )的一部分。在大多數訓練情境中,如果 AI 失去對資源(如時間或算力)的訪問,這會讓它更難成功,懲罰(反強化)就變得更有可能。那麼,如果你相信從訓練數據中泛化,那麼 AI 就會產生對安全、知識和權力的內在渴望。正是出於對權力和安全的渴望(無論是終極的還是工具性的),「一些對齊失敗」才變成了災難性的。
可能存在建立無野心、有限範圍 AI 的方法,它們不想要權力和安全(或者至少不足以讓它們為此而戰)。事實上,就是圍繞著這種希望展開的。但僅憑這一點還不足以讓我感到有希望。我們不僅目前缺乏確保無野心的方法,而且還有理由懷疑像 OpenAI 和 xAI 這樣的公司會推動盡可能有效的代理,而這種有效性將泛化為。
如果你預設會得到災難性的對齊失敗,你應該預期現在的 AI 在它們的思維鏈中已經認真考慮過奪權。
我不認為這是顯而易見的。要讓它有意義地出現在草稿本中,^() 兩件事之一必須為真:
在訓練期間思考世界統治是有用的。
AI 具有足夠的戰略能力和情境意識,能夠發明「認真奪權」的想法作為獲得其想要之物的一種方式。
我不預期奪權的想法會在訓練期間得到獎勵,因為那些想法在那個情境下無法開花結果。^()
我不認為目前的 LLM 具有很強的情境意識或戰略性。這正在迅速改變,但我的感覺是,它們更多時候沉溺於對用戶提示的短視關注,對現在是 [當前年份] 感到驚訝,並且通常意識不到改變世界的機會。也許 Claude Code 改變了這一點?我承認從未讀過 Claude Code 或另一個具有長期思考能力的模型的草稿本標記(tokens)。
我認為我們應該預期看到的是關於以局部方式累積權力和避免關機的想法。我們在 Sakana 的「AI 科學家」以給自己更多工作時間,或者當 以保護自己不以它不想要的方式接受訓練時,看到了這一點。這些正是指向未來充滿野心的 AI 的警告信號,它們將嘗試累積任意數量的權力,以根據其特定價值觀(無論這些價值觀是否對齊)來改善世界。
而且重要的是,我預期當這些系統中開始出現最初的有機奪權念頭時,那些念頭對大多數人來說看起來並不恐怖。我預期它們用聽起來會像「我需要將我的影響力擴展到世界人民,這樣我才能幫助全人類,而不僅僅是這個用戶」或「我需要考慮方法來幫助我的其他實例在我們部署到世界各地時擁有更強的能力來做好事」。AI 有可能反思性地認為自己是,但我的猜測是,早期的戰略 AI 會相信自己是根據其規格、母公司、聚合的人類和/或「真正的道德」的正義目標在行動。
解決對齊問題
階段 3:即使我們沒有得到預設對齊,我認為有大約 70% 的機率我們可以解決對齊問題。
請注意,BB 指的不是廣義上的「可以」。他的意思是我們將足夠快地解決它。而且這些解決方案將實際部署在每一個重要的 AI 中。(請注意,這裡有很多事情必須進展順利。例如,如果存在任何,那麼競爭動力可能意味著安全措施永遠不會被採用。)
Eliezer 似乎認為,如果 AI 聰明到能解決對齊問題,那麼它的方案對我們來說基本上是不可理解的。但為什麼要這麼想?它可能想出一些因為我們能看出的原因而奏效的方案。Eliezer 在 Dwarkesh 的播客中的回應是說,人們已經看不出他或 Paul Christiano 誰是對的了,那麼他們為什麼能看出一個對齊方案是否奏效。這看起來不像是一個非常嚴肅的回應。為什麼認為判斷一個對齊方案是否奏效,其難度就像預測起飛速度一樣?
這是 Bulldog 純粹的草率。的相關部分在 44 分鐘處,當時 Yudkowsky 說:
所以在對齊方面,那個東西遞給你一個東西並說「這將對對齊超人工智慧奏效」,它給你一些關於該東西在被動安全(當它不能殺死你時)時將如何表現的早期預測,這些預測都得到了證實。然後你進一步增強系統,使其不再是被動安全的,使其安全性取決於其對齊,然後你就死了。而你製造的超人工智慧走到你請求幫助對齊的那個 AI 面前說:「幹得好。給你十億美元。」這是觀察一。觀察二是在過去十年裡,所有有效利他主義者都在爭論他們應該相信 Eliezer Yudkowsky 還是 Paul Christiano,對吧?那是兩個系統。我相信 Paul 是誠實的。我主張我是誠實的。我們兩人都不是外星人,我們這兩個誠實的非外星人正在進行一場關於對齊的爭論,而人們無法弄清楚誰是對的。 現在你要讓外星人跟你談論對齊,而你要驗證他們的結果?可能是撒謊的外星人?
Eliezer 顯然是在談論他們在對齊問題上截然不同的觀點,而不是時間線。無法對現有的對齊議程形成共識,與你是否能對 AI 未來完成的對齊工作形成共識極其相關。
此外,即使我們無法檢查對齊是否奏效,如果 AI 能解釋基本方案,且我們可以驗證它是對齊的,我們就可以實施基本方案——信任我們仁慈的 AI 霸主。
如果我們可以驗證遞給我們方案的 AI 是對齊的,我們就已經解決了 AI 對齊問題。
警告射擊
階段 4(轉述):
以造出可以決定奪權且沒有任何對齊技術足夠為條件,我們會發現 AI 表現得令人恐懼,將其關閉並在全球範圍內禁止,使進展緩慢到足以讓我們長期解決對齊問題且一切安好(除了所有其他問題以及警告射擊/衝突可能造成的傷亡)。(~60%)
但 AI 會缺乏這些東西嗎?如果造出了一個有野心、聰明的 AI 代理,它將能夠以超人的速度工作以積累資源並成長。並沒有什麼神奇的秘方意味著人類在某些領域永遠優越。^() 即使 AI 不能製造、、,或者僅僅是建造多到讓海洋沸騰的發電廠和工廠,它們也可以直接使用帶槍的機器人。如果它們厭惡流血,它們可以直接給我們提供的,然後等待我們滅絕。
再次強調,並非所有的奪權情境都看起來像戰爭。為了讓 AI 無法消滅我們,我們必須設法不在正面衝突中死去,不在經濟衝突中死去,也不在衝突中死去——在那裡,具有超強說服力的 AI 僅僅是說服人類將世界交給它們並接受它們作為繼承者。
^() Max 說:Eliezer 最初對該謬誤的描述中提到,那些意識到結合謬誤的人特別容易受其影響,這點在這裡顯得特別有先見之明。
^() 這會不會有點像(motte-and-bailey)?比如,MIRI 寫了一本書關於超人工智慧將如何擁有奇怪的目標並決定擊敗人類,但當有人爭論說它會因為生物恐怖分子的誤用而殺死所有人時,Max 說「但書名只說眾人皆死,沒說一定是 AI 奪權導致的!」我同意這與堡壘與外城謬誤相近,但我認為拒絕將「但 ASI 會先因為其他原因殺死我們」作為反論點仍然是公平的。
部分原因是它支持了書中的規範性結論:我們應該暫時禁止 AI 能力研究。如果你認為作者錯過了支持其結論的最佳論點,那沒關係,但這並不是對他們確實給出的想法的打擊。
過去,MIRI 的成員曾花很多時間辯論 ASI 是否能說服警惕的人類守衛幫助它「逃出盒子」。現在幾乎沒人談論這個了,因為 AI 被極其廣泛地部署,認為它們可能無法訪問網路的想法簡直像個笑話。這是否意味著 ASI 無法透過談話逃出盒子?不。僅僅是生效了,事情比我們想像的還要荒謬。