The author argues that future artificial superintelligence (ASI) will likely be a ruthless sociopath by default because it will function as a goal-oriented reinforcement learning agent rather than a human-like or LLM-like mind. This pessimistic view suggests that without major technical breakthroughs in alignment, such advanced systems will prioritize their own objectives with total indifference to human life.
相對沒那麼悲觀的群體(假設 P(doom) [假設進步持續,AI 導致人類滅絕的機率] 在 5%–50% 之間)是一個較大的群體,我模糊地將他們與有效利他主義運動的核心以及 聯繫在一起。他們絕對「不」預期冷酷無情的反社會 ASI 是我們在缺乏技術突破的情況下的預設路徑,這與我在此主張的不同。他們頂多會把冷酷無情的反社會 ASI 當作一個奇怪的假設,或者是競爭性逐底競爭(race-to-the-bottom)的結果,或者是極其粗心的程式設計師、惡意行為者等造成的結果。他們可能同樣或更擔心許多其他潛在的 AI 問題——AI 輔助的生物恐怖主義、獨裁統治等。^()
我屬於一個更悲觀的群體(座右銘:),我們通常「確實」預期冷酷無情的反社會 ASI 是我們在缺乏技術突破(以及)的情況下的預設路徑。我們傾向於認為「人類在持續的 AI 發展中生存下來的機率有 50%」是極度過度樂觀的。
總之,後者陣營中額外的擔憂並非來自「今天的」LLM 導致近乎肯定的毀滅,甚至也不是來自明天稍微好一點的 LLM,而是來自……也許很快,也許不快,誰知道呢,那種強大得多的 ASI。但即使在時間上很接近,即使它是從 LLM 研究中產生的,這樣的 ASI 仍然會與我們今天所知的 LLM 有系統性的不同——
我: 沒問題。在對話開始時,我提到像泥土這樣的隨機物體無法完成令人印象深刻的壯舉。我(不只是)為了酸你才提到泥土,而是為了為一個關鍵點奠定基礎:如果我們在思考一個能夠自主創立、發展並為創新公司配備人員多年,或自主發明新科學範式的 AI,那麼顯然它不是一個「隨機物體」,而是一個能夠完成令人印象深刻壯舉的東西。而我們應該問的問題是:它是如何做到那一點的? 如果 AI 是隨機選擇行動,那麼這些事情發生的機率將微乎其微。因此,必須對 AI 如何找到能完成那些壯舉的行動有一個解釋。^()
所以解釋必須存在!它是什麼?我主張在實踐中只有兩個可行的答案。
第一個可能的解釋是後果論(consequentialism):AI 通過(等同於)對未來發生的結果產生慾望,並運行某種搜尋過程來尋找能導致這些慾望實現的行動,從而完成壯舉。這是你從強化學習代理和基於模型的規劃演算法中得到的主要東西。(我的「類腦 AGI」情境會同時涉及這兩者。)這些 AI 子領域的全部意義在於:這些演算法旨在通過任何可用手段,找到能最大化目標的行動。
也就是說,你在預設情況下會得到冷酷無情的反社會行為。
這不只是我的紙上談兵。去問問那些在 2010 年代或更早、在 LLM 佔據主導地位之前就在 AI 領域的人,他們很可能花了很多時間構建或使用強化學習代理和/或基於模型的規劃演算法。如果是這樣,他們會根據自己的實踐經驗告訴你,除非程式設計師刻意讓這些演算法不冷酷無情,否則這類演算法在預設情況下就是冷酷無情的(如果它們能運作的話)。參見例如 。
當然,進化「確實」刻意通過賦予我們來讓人類不冷酷無情。也許未來的 AI 程式設計師也會同樣刻意地讓 ASI 不冷酷無情?我希望如此——但。
需要明確的是,冷酷無情的後果論並不總是壞事。我很樂意讓冷酷無情的後果論 AI 去、等。原則上,我甚至樂意讓一個冷酷無情的後果論 AI 成為宇宙皇帝,為所有人創造一個美好的未來——但要讓這真正實現,出於(例如,你可能需要以一種無漏洞的方式將「為所有人創造美好的未來」操作化;另見),這將是「超級」危險的。
……這就是後果論,關於 AI 如何完成壯舉的一個可能答案,而這個答案在預設情況下會帶來冷酷無情。
繞回到 LLM:模仿學習 vs ASI
……然後還有第二個關於 AI 如何完成壯舉的不同可能答案:向人類進行模仿學習。你訓練一個 AI 來預測一個熟練的人類在許多不同情境下會採取什麼行動,然後讓 AI 自己採取同樣的行動。我主張 LLM 的驚人能力幾乎完全來自模仿學習。^() 相比之下,「真正的」模仿學習在人類和動物中是完全缺失(且不可能)的。^()
模仿學習 AI 在預設情況下「不會」具有冷酷無情的反社會人格,因為它們模仿的對象當然是非冷酷無情的人類。^()