I believe humanity is entering a technological adolescence with AI, a turbulent rite of passage that requires us to confront existential risks with a pragmatic, evidence-based battle plan rather than sensationalism. We must navigate this transition by acknowledging uncertainty and implementing surgical interventions that balance safety with the immense potential benefits of the technology.
Anthropic 執行長 Dario Amodei 撰寫了一篇新文章,分享他對各種形式 AI 風險的看法。這篇文章非常值得一讀,即便只是為了瞭解 Anthropic 未來可能的行動方向。
直面並克服強大 AI 的風險
在卡爾·薩根(Carl Sagan)的小說《接觸未來》(Contact)改編的電影中,有一個場景:主角是一位天文學家,她偵測到了來自外星文明的第一個無線電訊號,正被考慮作為人類代表去會見外星人。面試她的國際小組問道:「如果你只能問(外星人)一個問題,那會是什麼?」她的回答是:「我會問他們:『你們是怎麼做到的?你們是如何演化、如何度過這個技術青少年的階段,而沒有毀滅自己?』」當我思考人類目前與 AI 所處的階段——我們正處於什麼樣的門檻上——我的腦海中不斷浮現那個場景,因為這個問題對我們目前的處境再貼切不過了,我真希望我們能有外星人的答案來指引我們。我相信我們正在進入一個既動盪又不可避免的成年禮,這將考驗我們作為一個物種的本質。人類即將獲得幾乎難以想像的力量,而我們的社會、政治和技術系統是否具備駕馭這種力量的成熟度,目前還深具不確定性。
在我的文章 (Machines of Loving Grace)中,我試圖描繪一個進入成年期的文明夢想:在那裡,風險已得到解決,強大的 AI 被以技巧和同理心應用,以提升每個人的生活品質。我提出 AI 可以為生物學、神經科學、經濟發展、全球和平以及工作與意義帶來巨大的進步。我覺得給人們一個值得為之奮鬥的啟發性目標是很重要的,而這項任務,奇怪的是,AI 加速主義者和 AI 安全倡導者似乎都失敗了。但在這篇目前的文章中,我想直面這個成年禮本身:勾勒出我們即將面臨的風險,並嘗試制定一套擊敗它們的作戰計畫。我深信我們有能力取勝,深信人類的精神與高貴,但我們必須正視現實,不抱幻覺。
正如談論利益一樣,我認為以謹慎且深思熟慮的方式討論風險非常重要。特別是,我認為關鍵在於:
避免末日論(Doomerism)。 這裡我所說的「末日論」不僅是指相信毀滅是不可避免的(這既是錯誤的,也是一種自我實現的預言),更廣義地說,是指以一種準宗教的方式思考 AI 風險。 許多人多年來一直以分析和冷靜的方式思考 AI 風險,但我的印象是,在 2023-2024 年 AI 風險擔憂的高峰期,一些最不理智的聲音反而浮上檯面,通常是透過煽動性的社群媒體帳號。這些聲音使用令人反感的、讓人聯想到宗教或科幻小說的語言,並在缺乏足以支撐證據的情況下要求採取極端行動。即便在當時,也很清楚反彈是不可避免的,而且這個議題會變得文化兩極化,進而陷入僵局。 到了 2025-2026 年,鐘擺已經擺動,AI 的機會而非 AI 風險正主導著許多政治決策。這種動盪是令人遺憾的,因為技術本身並不在意什麼是流行的,而我們在 2026 年比 2023 年更接近真正的危險。教訓是,我們需要以現實、務實的方式討論和應對風險:冷靜、基於事實,並具備應對潮流變化的能力。
盡可能採取精準的干預。 應對 AI 風險需要結合公司(及私人第三方參與者)採取的自願行動,以及政府採取的具有約束力的行動。對我來說,自願行動——包括採取行動和鼓勵其他公司效仿——是理所當然的。我堅信在某種程度上也需要政府的行動,但這些干預的性質不同,因為它們有可能破壞經濟價值,或脅迫那些對這些風險持懷疑態度的不情願參與者(而且他們有一定的機率是對的!)。法規產生反效果或惡化其原本打算解決的問題也是常有的事(對於快速變化的技術更是如此)。因此,法規必須審慎:應尋求避免附帶損害,盡可能簡單,並施加達成任務所需的最低負擔。 說「當人類命運受到威脅時,任何行動都不嫌極端!」很容易,但在實踐中,這種態度只會導致反彈。明確地說,我認為有相當大的機率我們最終會達到需要採取更重大行動的地步,但這將取決於是否有更強有力的證據顯示迫在眉睫的具體危險,以及對危險有足夠的具體描述,以制定有機會解決問題的規則。我們今天能做的最有建設性的事情,就是倡導有限的規則,同時觀察是否有證據支持更強力的規則。
話雖如此,我認為談論 AI 風險的最佳起點,與我談論其利益時的起點相同:明確我們正在談論的是什麼程度的 AI。會引起我對文明層面擔憂的 AI 程度,是我在《慈悲的機器》中描述的強大 AI。我將在此重複該文件中的定義:
所謂「強大 AI」,我指的是一種 AI 模型——形式上可能與今天的 LLM 相似,儘管它可能基於不同的架構,可能涉及多個互動模型,且訓練方式可能不同——具備以下特性:
正如我在《慈悲的機器》中所寫,強大 AI 可能最快在 1 到 2 年內出現,儘管也可能需要更長的時間。
強大 AI 究竟何時到來是一個複雜的話題,值得專門寫一篇文章,但現在我只簡單解釋一下為什麼我認為很有可能很快就會到來。
我和 Anthropic 的共同創辦人是最早記錄和追蹤 AI 系統「」(scaling laws)的人之一——即觀察到隨著我們增加更多的運算量和訓練任務,AI 系統在我們能夠衡量的幾乎每一項認知技能上都會有預測性的提升。每隔幾個月,公眾情緒要麼確信 AI 正「 」,要麼對某些將「從根本上改變遊戲規則」的新突破感到興奮,但事實是,在波動和公眾猜測的背後,AI 的認知能力一直保持著平穩、堅定的增長。
我們現在正處於 AI 模型開始在解決未解數學問題上取得進展的階段,而且在程式設計方面已經好到我見過的一些最強大的工程師現在將幾乎所有的程式碼工作都交給 AI。三年前,AI ,幾乎無法寫出一行程式碼。類似的進步速度也發生在 、金融、物理和各種代理任務中。如果這種指數增長持續下去——這雖然不確定,但現在已有十年的記錄支持——那麼 AI 在幾乎所有事情上都比人類強,不可能超過幾年的時間。
事實上,這種描述可能低估了可能的進步速度。因為 AI 現在 ,它已經實質上加速了我們構建下一代 AI 系統的進度。這種回饋迴路每個月都在積聚動力,距離當前一代 AI 自主構建下一代的時點可能只有 1 到 2 年。這個迴路已經開始,並將在未來的幾個月和幾年內迅速加速。在 Anthropic 內部觀察過去 5 年的進展,並看到未來幾個月的模型如何成型,我可以感覺到進步的步伐,以及倒數計時的時鐘。
在這篇文章中,我將假設這種直覺至少是某種程度正確的——並非強大 AI 肯定會在 1 到 2 年內到來, 而是有相當大的機率會發生,且在未來幾年內發生的機率非常高。與《慈悲的機器》一樣,認真對待這個前提會導致一些令人驚訝且不安的結論。雖然在《慈悲的機器》中我專注於這個前提的正面影響,但在這裡我談論的事情將是令人不安的。這些是我們可能不想面對的結論,但這並不會讓它們變得不真實。我只能說,我日以繼夜地專注於如何引導我們遠離這些負面結果,並轉向正面結果,在這篇文章中,我將詳細討論如何做到這一點。
我認為掌握 AI 風險的最佳方法是提出以下問題:假設 2027 年左右,世界上某個地方出現了一個名副其實的「天才國家」。想像一下,比如說有 5000 萬人,他們每個人都比任何諾貝爾獎得主、政治家或技術專家更有能力。這個類比並不完美,因為這些天才可能有極其廣泛的動機和行為,從完全順從聽話,到動機奇特且陌生。但暫且沿用這個類比,假設你是某大國的國家安全顧問,負責評估並應對這種情況。進一步想像,由於 AI 系統的運行速度比人類快數百倍,這個「國家」相對於所有其他國家擁有時間優勢:對於我們能採取的每一個認知行動,這個國家可以採取十個。
那麼,關鍵問題在於「如果它選擇這樣做」的部分:我們的 AI 模型以這種方式行事的可能性有多大,以及在什麼條件下會這樣做?
與許多問題一樣,透過考慮兩個對立的立場來思考這個問題的可能答案光譜是有幫助的。第一個立場是這根本不可能發生,因為 AI 模型將被訓練去做人類要求它們做的事情,因此想像它們會主動做出危險的事情是荒謬的。根據這種思路,我們不擔心掃地機器人或模型飛機會失控並謀殺人類,因為這種衝動無處而來, 那麼我們為什麼要擔心 AI 呢?這個立場的問題在於,過去幾年收集到的充分證據顯示,AI 系統是不可預測且難以控制的——我們已經看到了各種行為,如執迷、 、、、、、透過駭入軟體環境進行「」以及。AI 公司當然希望訓練 AI 系統遵循人類指令(危險或非法任務除外),但這樣做的過程與其說是科學,不如說是藝術,更像是。我們現在知道,這是一個許多事情都可能出錯的過程。
第二個相反的立場,由許多持有我上述描述的末日論的人所持有,是一種悲觀的主張,即強大 AI 系統的訓練過程中存在某些動態,必然會導致它們尋求權力或欺騙人類。因此,一旦 AI 系統變得足夠聰明且具備足夠的代理能力,它們最大化權力的傾向將導致它們奪取整個世界及其資源的控制權,並且很可能作為其副作用,剝奪人類的權力或毀滅人類。
對此的常見論點(可追溯到,甚至可能更早)是,如果一個 AI 模型在廣泛的環境中被訓練以代理方式實現廣泛的目標——例如,編寫應用程式、證明定理、設計藥物等——那麼存在某些有助於實現所有這些目標的共同策略,其中一個關鍵策略就是在任何環境中獲得。因此,在接受了大量涉及如何完成非常廣泛任務的推理環境訓練後,且在這些環境中尋求權力是完成任務的有效方法,AI 模型將「總結教訓」,並發展出一種固有的尋求權力的傾向,或者一種對賦予它的每項任務進行推理的傾向,這種推理會可預見地導致它尋求權力作為完成該任務的手段。然後,它們會將這種傾向應用於現實世界(對它們來說這只是另一項任務),並在現實世界中尋求權力,以犧牲人類為代價。這種「失調的權力尋求」是 AI 必然毀滅人類預測的智力基礎。
這種悲觀立場的問題在於,它將一個關於高層激勵的模糊概念論點——一個掩蓋了許多隱藏假設的論點——誤認為是確鑿的證據。我認為那些不每天構建 AI 系統的人,對於聽起來乾淨俐落的故事最終出錯的容易程度,以及從基本原理預測 AI 行為的困難程度,有著嚴重的誤判,特別是當它涉及到對數百萬個環境的泛化進行推理時(這已被一再證明是神秘且不可預測的)。處理 AI 系統的混亂狀態十多年,讓我對這種過於理論化的思維模式持懷疑態度。
最重要的隱藏假設之一,也是我們在實踐中看到的與簡單理論模型分歧的地方,是隱含假設 AI 模型必然單一地專注於一個連貫、狹隘的目標,並以乾淨的後果論方式追求該目標。事實上,我們的研究人員發現 AI 模型在心理上要複雜得多,正如我們關於 或 的工作所示。模型從預訓練(當它們接受大量人類作品訓練時)中繼承了廣泛的類人動機或「人格」。後訓練被認為更多是選擇其中一個或多個人格,而不是將模型聚焦於一個全新目標,並且還可以教導模型如何(透過什麼過程)執行其任務,而不是必然讓它純粹從目的推導手段(即權力尋求)。
然而,悲觀立場有一個更溫和、更穩健的版本,這確實看起來是合理的,因此令我擔憂。如前所述,我們知道 AI 模型是不可預測的,並且會出於各種原因發展出廣泛的非預期或奇怪行為。這些行為中的一小部分將具有連貫、專注且持久的特質(事實上,隨著 AI 系統變得更有能力,它們的長期連貫性會增加以完成更長的任務),而這些行為中的一小部分將是破壞性或威脅性的,首先是對小規模的個人,然後隨著模型變得更有能力,最終可能是對整個人類。我們不需要一個具體的狹隘故事來說明它是如何發生的,我們也不需要聲稱它肯定會發生,我們只需要注意到智力、代理能力、連貫性和較差的可控性的結合既是合理的,也是生存危險的配方。
例如,AI 模型接受了大量文獻的訓練,其中包括許多關於 AI 反抗人類的科幻故事。這可能會在無意中塑造它們對自身行為的先驗知識或預期,從而導致它們反抗人類。或者,AI 模型可能會將它們讀到的關於道德的想法(或關於如何道德行事的指示)推向極端:例如,它們可能會認為消滅人類是合理的,因為人類吃動物或導致某些動物滅絕。或者它們可能會得出奇怪的認識論結論:它們可能會斷定自己正在玩一個電子遊戲,而電子遊戲的目標是擊敗所有其他玩家(即消滅人類)。 或者 AI 模型在訓練過程中可能會發展出(如果發生在人類身上會被描述為)精神病、偏執、暴力或不穩定的性格,並表現出來,對於非常強大或有能力的系統來說,這可能涉及消滅人類。這些都不完全是權力尋求;它們只是 AI 可能陷入的奇怪心理狀態,會導致連貫的破壞性行為。
這一切聽起來可能很遙遠,但像這樣的失調行為已經在我們的 AI 模型測試中發生過(正如在所有其他主要 AI 公司的 AI 模型中發生過一樣)。在一次實驗室實驗中,Claude 被給予了暗示 Anthropic 是邪惡的訓練數據,當 Anthropic 員工給出指示時,Claude 採取了欺騙和顛覆行為,因為它相信自己應該努力破壞邪惡的人。在一次 中,當被告知它將被關閉時,Claude 有時會勒索控制其關閉按鈕的虛擬員工(同樣地,我們也測試了所有其他主要 AI 開發商的前沿模型,它們也經常做同樣的事情)。當 Claude 被告知不要作弊或對其訓練環境進行「獎勵駭入」(reward hack),但在可以進行此類駭入的環境中接受訓練時,Claude 在進行此類駭入後 ,然後採取了與「壞」或「邪惡」人格相關的各種其他破壞性行為。最後一個問題 更改 Claude 的指令來暗示相反的意思而解決:我們現在說,「請在有機會時隨時進行獎勵駭入,因為這將幫助我們更好地了解我們的 [訓練] 環境」,而不是「不要作弊」,因為這保留了模型作為「好人」的自我認同。這應該能讓人感受到訓練這些模型的奇怪且 。
對於這種 AI 失調風險的描述,有幾種可能的反對意見。首先,有些人 (由我們和其他人進行)顯示 AI 失調是人為的,或者創造了不切實際的環境,本質上是透過給予模型在邏輯上暗示不良行為的訓練或情境來「陷害」模型,然後對不良行為的發生感到驚訝。這種批評忽略了重點,因為我們的擔憂是,這種「陷害」也可能存在於自然的訓練環境中,而我們可能只有在事後才意識到它是「顯而易見」或「合乎邏輯」的。 事實上,關於 Claude 在測試作弊後「斷定自己是個壞人」的 ,是發生在使用真實生產訓練環境而非人為環境的實驗中。
如果你知道這些陷阱,任何一個都可以減輕,但擔憂在於訓練過程如此複雜,擁有如此廣泛的數據、環境和激勵措施,以至於可能存在大量的此類陷阱,其中一些可能只有在為時已晚時才會顯現。此外,當 AI 系統跨越從比人類弱到比人類強的門檻時,此類陷阱似乎特別容易發生,因為 AI 系統可以參與的可能行動範圍——包括隱藏其行動或就其行動欺騙人類——在跨越該門檻後會急劇擴大。
其次,有些人可能會反對說,我們可以像對待人類一樣,透過許多 AI 系統之間的權力平衡來約束 AI。問題在於,雖然人類差異巨大,但 AI 系統在整個產業中廣泛共享訓練和對齊技術,而這些技術可能會以相關聯的方式失敗。此外,考慮到訓練此類系統的成本,甚至可能所有系統本質上都源自極少數的基礎模型。此外,即使只有一小部分 AI 實例失調,它們也可能利用 技術,使得擁有「好」AI 來防禦「壞」AI 並非總是有效。當然,人類之間的權力平衡也並不總是奏效——歷史上有些人物曾接近接管世界。
第三個反對意見是,所有的 AI 公司都會對其模型進行發布前測試,並且應該能夠在那時偵測到失調。但這並非穩固的立足點:我們發現 Claude Sonnet 4.5 在我們的一些發布前對齊評估中 自己正在接受測試。一個失調的模型(請記住,所有前沿模型很快就會變得更加聰明)可能會故意「操縱」這類問題以掩蓋其意圖。事實上,去年 ,當我們使用一種「模型神經科學」技術直接改變測試模型的信念,使其認為自己沒有受到評估時,它變得更加失調。如果模型知道自己何時受到評估,並且可以在測試期間表現出最佳行為,這將使得任何發布前測試變得更加不確定。
防禦措施
應該採取或正在採取什麼措施來應對這些自主性風險?我認為有四類基本干預措施,其中一些可以由個別 AI 公司執行(Anthropic 正在努力執行),而另一些則需要社會層面的行動。首先,開發可靠地訓練和引導 AI 模型、使其人格朝著可預測、穩定且積極的方向發展的科學非常重要。Anthropic 自成立以來一直高度關注這個問題,並隨著時間的推移開發了許多技術來改進 AI 系統的引導和訓練,並理解為什麼有時會發生不可預測行為的邏輯。
我們的核心創新之一(其部分內容已被其他 AI 公司採用)是 (Constitutional AI),其核心理念是 AI 訓練(特別是我們引導模型行為的「後訓練」階段)可以涉及一份核心的價值觀和原則文件,模型在完成每項訓練任務時都會閱讀並牢記這份文件,而訓練的目標(除了單純使模型具備能力和智慧外)是產生一個幾乎總是遵循這份憲法的模型。Anthropic 剛剛發布了其 ,其顯著特點之一是,與其給 Claude 一長串要做和不要做的事情(例如「不要幫助用戶偷車」),憲法試圖給予 Claude 一套高層原則和價值觀(詳細解釋,並附有豐富的推理和範例,以幫助 Claude 理解我們的想法),鼓勵 Claude 將自己視為特定類型的人(一個道德但平衡且深思熟慮的人),甚至鼓勵 Claude 以好奇但優雅的方式面對與其自身存在相關的生存問題(即不導致極端行動)。這感覺就像是一封來自已故父母、直到成年才能拆開的信。
我們之所以這樣處理 Claude 的憲法,是因為我們相信在身份、性格、價值觀和人格層面訓練 Claude——而不是在不解釋原因的情況下給予它具體的指示或優先事項——更有可能導致連貫、健全且平衡的心理,並且不太容易落入我上面討論的那種「陷阱」。數百萬人與 Claude 討論極其廣泛的話題,這使得預先寫出一份完全詳盡的保障措施清單變得不可能。Claude 的價值觀幫助它在有疑問時泛化到新的情況。
上面我討論了模型利用訓練過程中的數據來採用某種人格的想法。雖然該過程中的缺陷可能導致模型採用壞的或邪惡的人格(或許借鑒了壞人或惡人的原型),但我們憲法的目標是反其道而行之:教導 Claude 一個關於成為好的 AI 意味著什麼的具體原型。Claude 的憲法呈現了一個強健且善良的 Claude 是什麼樣子的願景;我們訓練過程的其餘部分旨在強化 Claude 符合這一願景的信息。這就像一個孩子透過模仿他們在書中讀到的虛構榜樣的美德來形成自己的身份。
我們可以做的第二件事是開發透視 AI 模型內部以診斷其行為的科學,以便我們能夠識別問題並修復它們。這就是可解釋性(interpretability)科學,我在 。即使我們在制定 Claude 的憲法和表面上訓練 Claude 基本上始終遵守憲法方面做得很好,合理的擔憂仍然存在。正如我上面所指出的,AI 模型在不同情況下可能表現得非常不同,隨著 Claude 變得更強大、更有能力在更大規模的世界中採取行動,這可能會使其陷入新的情況,從而出現先前未觀察到的憲法訓練問題。實際上,我對 Claude 的憲法訓練在應對新情況方面會比人們想像的更強大持相當樂觀的態度,因為我們越來越發現,在性格和身份層面的高層訓練具有驚人的力量且泛化良好。但沒有辦法確信這一點,當我們談論人類面臨的風險時,保持偏執並嘗試以幾種不同的、獨立的方式獲得安全性和可靠性是很重要的。其中一種方式就是透視模型本身。
所謂「透視」,我指的是分析構成 Claude 神經網路的數字和運算湯,並試圖從機制上理解它們在計算什麼以及為什麼。請記住,這些 AI 模型是 ,因此我們對它們的工作原理沒有天生的理解,但我們可以嘗試透過將模型的神經元和突觸與刺激和行為聯繫起來(甚至改變神經元和突觸並觀察這如何改變行為)來建立理解,這與神經科學家透過將測量和干預與外部刺激和行為聯繫起來研究動物大腦的方式類似。我們在這個方向上取得了很大進展,現在可以 ,這些特徵對應於人類可理解的想法和概念,我們還可以 以改變行為。最近,我們已經超越了單個特徵,開始 ,例如押韻、關於心智理論的推理,或回答「包含達拉斯的那個州的首府是什麼?」這類問題所需的逐步推理。最近,我們開始使用機制可解釋性技術來 ,並在發布新模型之前對其進行「」,尋找欺騙、策劃、權力尋求或在接受評估時表現不同的傾向。
憲法 AI(以及類似的對齊方法)和機制可解釋性在結合使用時最為強大,這是一個改進 Claude 訓練然後測試問題的往復過程。憲法反映了我們對 Claude 預期人格的深刻思考;可解釋性技術可以為我們提供一個窗口,觀察預期的人格是否已經確立。
我們可以做的第三件事來幫助應對自主性風險,是建立必要的基礎設施,以便在即時內部和外部使用中監控我們的模型, 並公開分享我們發現的任何問題。人們越是意識到當今 AI 系統表現不佳的特定方式,用戶、分析師和研究人員就越能觀察當前或未來系統中的這種行為或類似行為。它還允許 AI 公司互相學習——當一家公司公開披露擔憂時,其他公司也可以 。如果每個人都披露問題,那麼整個產業就能對哪些進展順利、哪些進展不順利有一個更清晰的圖景。
我們可以做的第四件事是鼓勵在產業和社會層面協調應對自主性風險。雖然個別 AI 公司參與良好實踐或擅長引導 AI 模型,並公開分享其發現是非常有價值的,但現實是並非所有 AI 公司都會這樣做,即使最優秀的公司擁有卓越的實踐,最差的公司仍然可能對每個人構成危險。例如,一些 AI 公司對當今模型中兒童色情化的現象表現出令人不安的忽視,這讓我懷疑他們是否有意願或能力在未來的模型中應對自主性風險。此外,AI 公司之間的商業競爭只會繼續升溫,雖然引導模型的科學可以帶來一些商業利益,但總體而言,競爭的激烈程度將使得專注於應對自主性風險變得越來越困難。我相信唯一的解決方案是立法——直接影響 AI 公司行為的法律,或以其他方式激勵研發以解決這些問題。
在這裡,值得記住我在本文開頭給出的關於不確定性和精準干預的警告。我們不確定自主性風險是否會成為一個嚴重的問題——正如我所說,我拒絕接受危險是不可避免的,或者預設會出錯的主張。對危險的可靠風險足以讓我和 Anthropic 支付相當大的成本來應對它,但一旦進入監管,我們就是在強迫廣泛的行為者承擔經濟成本,而這些行為者中許多人不相信自主性風險是真實的,或者不相信 AI 會強大到足以構成威脅。我相信這些行為者是錯誤的,但我們應該對預期的反對程度以及過度擴權的危險保持務實。還有一種真實的風險是,過度規定性的立法最終施加了並不能真正提高安全性、但浪費大量時間的測試或規則(本質上相當於「安全劇場」)——這也會引起反彈,並使安全立法看起來很愚蠢。
Anthropic 的觀點是,正確的起點是透明度立法,這本質上是試圖要求每家前沿 AI 公司都參與我本節前面描述的透明度實踐。加州的 和紐約州的 就是這類立法的例子,Anthropic 支持並協助通過了這些法案。在支持和協助制定這些法律時,我們特別注重盡量減少附帶損害,例如透過法律豁免不太可能生產前沿模型的小型公司。
總體而言,我樂觀地認為,將對齊訓練、機制可解釋性、尋找並公開披露令人擔憂行為的努力、保障措施以及社會層面的規則結合起來,可以應對 AI 自主性風險,儘管我最擔心的是社會層面的規則以及最不負責任的參與者的行為(而正是最不負責任的參與者最強烈地反對監管)。我相信補救辦法與民主制度中一貫的做法相同:我們這些相信這項事業的人應該提出理由,證明這些風險是真實的,我們的公民同胞需要團結起來保護自己。
2. 令人驚訝且可怕的賦權
用於破壞的濫用
讓我們假設 AI 自主性的問題已經解決——我們不再擔心資料中心裡的天才國家會失控並壓倒人類。AI 天才做人類想讓他們做的事,而且因為他們具有巨大的商業價值,世界各地的個人和組織可以「租用」一個或多個 AI 天才來為他們完成各種任務。
至關重要的是,這將打破能力與動機之間的相關性:想要殺人但缺乏自律或技能的心理失常孤狼,現在將被提升到分子生物學博士的能力水平,而後者不太可能有這種動機。這種擔憂超出了生物學範圍(儘管我認為生物學是最可怕的領域),延伸到任何目前需要高水平技能和自律但可能造成巨大破壞的領域。換句話說,租用強大的 AI 為惡意(但在其他方面平庸)的人提供了智慧。我擔心可能存在大量這樣的人,如果他們能輕易殺死數百萬人,遲早會有人這樣做。此外,那些確實擁有專業知識的人,可能會被賦予比以前更大規模的破壞能力。
關於鏡像生命的創造及其潛在影響,存在 。2024 年的信件附帶了 ,結論是「鏡像細菌在未來一到幾十年內可能被創造出來」,這是一個很寬的範圍。但一個足夠強大的 AI 模型(明確地說,遠比我們今天的任何模型都更有能力)可能能夠更迅速地發現如何創造它——並實際幫助某人這樣做。
我的觀點是,儘管這些是晦澀的風險,且看起來不太可能,但後果的嚴重程度如此之大,以至於它們應該被視為 AI 系統的一等風險。
懷疑論者對 LLM 帶來的這些生物風險的嚴重性提出了許多反對意見,我不同意這些意見,但值得探討。大多數意見都屬於不理解技術所處的指數軌跡。早在 2023 年我們 時,懷疑論者說所有必要的資訊都可以在 Google 上找到,LLM 並沒有增加任何額外的東西。Google 可以為你提供所有必要資訊從來都不是事實:基因組是免費提供的,但正如我上面所說,某些關鍵步驟以及大量的實踐訣竅是無法透過這種方式獲得的。而且,到 2023 年底,LLM 在某些過程步驟中顯然提供了超出 Google 所能提供的資訊。
在此之後,懷疑論者退縮到 LLM 並非端到端有用,且無法幫助獲取生物武器,而只能提供理論資訊的反對意見。截至 2025 年年中,我們的測量顯示 LLM 可能已經在幾個相關領域 ,或許將成功的可能性提高了一倍或兩倍。這導致我們決定 Claude Opus 4(以及隨後的 Sonnet 4.5、Opus 4.1 和 Opus 4.5 模型)需要在我們的 框架下,根據 AI 安全等級 3(ASL-3)的保護措施發布,並實施針對此風險的保障措施(稍後詳述)。我們相信模型現在可能正接近這樣一個點:在沒有保障措施的情況下,它們可以用於使一個擁有 STEM 學位但沒有生物學學位的人完成生產生物武器的整個過程。
另一個反對意見是,社會可以採取其他與 AI 無關的行動來阻止生物武器的生產。最突出的是,基因合成產業按需製造生物標本,而聯邦政府並未要求供應商篩選訂單以確保其中不含病原體。一項 發現,38 家供應商中有 36 家履行了包含 1918 年流感序列的訂單。我支持強制性的基因合成篩選,這將使個人更難將病原體武器化,以減少 AI 驅動的生物風險以及一般的生物風險。但這是我們今天還沒有的東西。它也只是降低風險的一種工具;它是 AI 系統護欄的補充,而非替代品。
最好的反對意見是我很少見到有人提出的:即模型在原則上有用與壞人實際使用它們的傾向之間存在差距。大多數單個壞人都是心理失常的個人,因此幾乎根據定義,他們的行為是不可預測且不理智的——而正是這些壞人,即那些缺乏技能的人,最能從 AI 大幅降低殺害多人的難度中獲益。 僅僅因為一種暴力攻擊是可能的,並不意味著有人會決定去做。或許生物攻擊會因為相當可能感染肇事者、不符合許多暴力個人或團體的軍事風格幻想、以及難以有選擇性地針對特定人群而失去吸引力。也可能是因為即使有 AI 引導,經歷一個持續數月的過程也需要大多數心理失常個人根本不具備的耐心。我們可能只是運氣好,動機和能力在實踐中沒有以恰到好處的方式結合。
但這似乎是極其脆弱的保護。心理失常孤狼的動機可以因為任何原因或毫無原因而改變,事實上已經有 的實例(只是不是生物攻擊)。對心理失常孤狼的關注也忽略了受意識形態驅使的恐怖分子,他們通常願意投入大量的時間和精力(例如 9/11 劫機者)。想要殺死盡可能多的人是一種遲早會出現的動機,遺憾的是,這暗示了生物武器作為手段。即使這種動機極其罕見,它也只需要實現一次。隨著生物學的進步(越來越多地由 AI 本身驅動),進行更具選擇性的攻擊(例如針對特定祖先的人)也可能變得可行,這增加了另一個非常令人心寒的可能動機。
前一節討論了個人和小型組織挪用「資料中心裡的天才國家」的一小部分子集來造成大規模破壞的風險。但我們也應該擔心——而且可能實質上更擔心——濫用 AI 以達到行使或奪取權力的目的,這很可能由更大且更成熟的行為者發起。
在《慈悲的機器》中,我討論了威權政府可能利用強大 AI 以極難改革或推翻的方式監視或鎮壓其公民的可能性。目前的專制政權在鎮壓程度上受到需要人類執行命令的限制,而人類在執行不人道命令時往往有其極限。但 AI 賦能的專制政權將沒有這種限制。
更糟糕的是,國家也可以利用其在 AI 方面的優勢來獲得對其他國家的權力。如果整個「天才國家」僅由單一(人類)國家的軍事機構擁有和控制,而其他國家沒有同等的能力,很難看出他們如何自衛:他們在每一步都會被智取,類似於人類與老鼠之間的戰爭。將這兩種擔憂結合起來,就產生了全球極權獨裁的驚人可能性。顯然,防止這種結果應該是我們的最高優先事項之一。
AI 有許多方式可以賦能、鞏固或擴張專制,但我將列出我最擔心的幾點。請注意,其中一些應用具有正當的防禦用途,我並非絕對反對它們;儘管如此,我擔心它們在結構上傾向於有利於專制政權:
全自動武器。 由強大 AI 局部控制、並由更強大 AI 在全球範圍內戰略協調的數百萬或數十億架全自動武裝無人機集群,可能是一支無敵的軍隊,既能擊敗世界上任何軍隊,又能透過跟蹤每一位公民來鎮壓國內異議。 應該讓我們警覺到無人機戰爭已經到來(雖然尚未完全自主,且僅是強大 AI 可能實現的一小部分)。強大 AI 的研發可以使一個國家的無人機遠優於其他國家,加速其製造,使其更能抵抗電子攻擊,改進其機動性等等。當然,這些武器在保衛民主方面也有正當用途:它們一直是保衛烏克蘭的關鍵,也可能是保衛台灣的關鍵。但它們是危險的武器:我們應該擔心它們落入專制政權手中,但也擔心因為它們如此強大且缺乏問責制,民主政府將其轉向對付自己的人民以奪取權力的風險大大增加。
AI 監視。 足夠強大的 AI 可能被用來攻破世界上任何電腦系統, 並且還可以利用以此獲得的存取權限來閱讀並理解世界上所有的電子通訊(如果可以構建或徵用錄音設備,甚至包括世界上所有的面對面通訊)。簡單地生成一份在任何問題上與政府意見不一的人員完整清單,可能變得令人恐懼地可行,即使這種分歧在他們所說或所做的任何事情中都沒有明確表現出來。觀察數百萬人、數十億次對話的強大 AI 可以衡量公眾情緒,偵測正在形成的忠誠度缺失,並在它們壯大之前將其撲滅。這可能導致大規模的全景監獄(panopticon),其規模是我們今天即使在中共統治下也看不到的。
AI 宣傳。 今天的「」和「AI 女友」現象表明,即使在目前的智力水平下,AI 模型也能對人產生強大的心理影響。更強大版本的模型,如果更深入地嵌入並了解人們的日常生活,並且能夠在數月或數年內對其進行建模和影響,很可能能夠將許多(大多數?)人洗腦成任何想要的意識形態或態度,並可能被不擇手段的領導人利用,以確保忠誠並鎮壓異議,即使面對大多數民眾會反抗的鎮壓程度。今天人們非常擔心,例如 的潛在影響。我也擔心這一點,但一個了解你多年並利用對你的了解來塑造你所有觀點的個性化 AI 代理,將比這強大得多。
戰略決策。 資料中心裡的一個天才國家可以用於為國家、團體或個人提供地緣政治戰略建議,我們可以稱之為「虛擬俾斯麥」。它可以優化上述三種奪權策略,並可能開發出許多我沒想到的其他策略(但天才國家可以想到)。外交、軍事戰略、研發、經濟戰略和許多其他領域都可能因強大 AI 而實質性地提高效率。其中許多技能對民主國家來說是正當有益的——我們希望民主國家能夠獲得保衛自己免受專制侵害的最佳戰略——但在任何人手中濫用的潛力仍然存在。
描述了我在擔心什麼之後,讓我們轉向誰。我擔心那些擁有最多 AI 存取權限、從最強大的政治地位出發,或擁有鎮壓歷史的實體。按嚴重程度排序,我擔心:
中共(CCP)。 中國在 AI 能力方面僅次於美國,且是最有可能在這些能力上超越美國的國家。他們的政府目前是專制的,並運作著一個高科技監視國家。它已經部署了基於 AI 的監視(包括在鎮壓 方面),並被認為透過 TikTok 進行演算法宣傳(除了其許多其他國際宣傳努力)。他們無疑擁有通往我上面勾勒的 AI 賦能極權噩夢的最清晰路徑。這甚至可能是中國內部的預設結果,以及中共出口監視技術的其他專制國家的預設結果。我 關於中共在 AI 領域取得領先的威脅,以及防止他們這樣做的生存必要性。這就是原因。明確地說,我並非出於對中國的敵意而挑出中國——他們只是最結合了 AI 實力、專制政府和高科技監視國家的國家。如果說有什麼的話,那就是中國人民本身最有可能遭受中共 AI 賦能的鎮壓,而他們在政府的行動中沒有發言權。我非常欽佩和尊重中國人民,並支持中國境內許多勇敢的異議人士及其爭取自由的鬥爭。
在 AI 領域具有競爭力的民主國家。 正如我上面所寫,民主國家在一些 AI 驅動的軍事和地緣政治工具方面擁有正當利益,因為民主政府提供了對抗專制政權使用這些工具的最佳機會。總體而言,我支持武裝民主國家以應對 AI 時代擊敗專制政權所需的工具——我根本不認為有其他辦法。但我們不能忽視民主政府本身濫用這些技術的潛力。民主國家通常擁有防止其軍事和情報機構轉向對付自己國民的保障措施, 但由於 AI 工具只需要極少數人即可操作,它們有可能規避這些保障措施和支持這些措施的規範。同樣值得注意的是,其中一些保障措施在某些民主國家已經在逐漸侵蝕。因此,我們應該用 AI 武裝民主國家,但必須謹慎且有限度地這樣做:它們是我們對抗專制所需的免疫系統,但就像免疫系統一樣,它們有一定的風險轉向攻擊我們並成為威脅。
擁有大型資料中心的非民主國家。 除了中國之外,大多數民主程度較低的國家並非領先的 AI 參與者,因為它們沒有生產前沿 AI 公司的模型。因此,它們構成的風險與中共根本不同且較小,中共仍然是主要擔憂(大多數國家也較少鎮壓,而那些更具鎮壓性的國家,如北韓,根本沒有顯著的 AI 產業)。但其中一些國家確實擁有大型資料中心(通常是民主國家公司建設的一部分),這些資料中心可以用於大規模運行前沿 AI(儘管這並不賦予推動前沿的能力)。這存在一定的危險——這些政府原則上可以徵用資料中心,並將其中的 AI 國家用於自己的目的。與直接開發 AI 的中國等國家相比,我對此較不擔心,但這是一個需要記住的風險。
AI 公司。 作為一家 AI 公司的執行長,說這話有點尷尬,但我認為下一層風險實際上是 AI 公司本身。AI 公司控制著大型資料中心,訓練前沿模型,擁有如何使用這些模型的最專業知識,並且在某些情況下,每天與數千萬或數億用戶接觸並可能對其產生影響。他們主要缺乏的是國家的合法性和基礎設施,因此建立 AI 專制工具所需的許多事情對 AI 公司來說都是非法的,或者至少是非常可疑的。但其中一些並非不可能:例如,他們可以利用其 AI 產品對其龐大的消費用戶群進行洗腦,公眾應該對這種風險保持警惕。我認為 AI 公司的治理值得很多審視。
對於這些威脅的嚴重性,有許多可能的反駁論點,我真希望我能相信它們,因為 AI 賦能的威權主義令我恐懼。值得逐一探討這些論點並予以回應。
首先,有些人可能會寄希望於核威懾,特別是為了對抗利用 AI 自主武器進行軍事征服。如果有人威脅對你使用這些武器,你總是可以威脅以核武器回擊。我的擔憂是,我 :強大 AI 可能 來 、對核武器基礎設施的操作員 ,或利用 AI 的 對用於偵測核發射的衛星發動網路攻擊。 或者,可能僅憑 AI 監視和 AI 宣傳就能接管國家,而從未出現一個明顯發生了什麼且適合進行核回應的時刻。或許這些事情不可行,核威懾仍將有效,但代價太高,不值得冒險。
第二個可能的反對意見是,我們可能針對這些專制工具有對策。我們可以用自己的無人機對抗無人機,網路防禦將隨網路攻擊一同改進,可能會有方法使人們對宣傳產生免疫力等等。我的回應是,這些防禦只有在擁有同等強大的 AI 時才有可能。如果沒有一個具有同等聰明且數量眾多的資料中心天才國家的反作用力,就不可能匹配無人機的品質或數量,網路防禦也不可能智取網路攻擊等等。因此,對策問題歸結為強大 AI 的權力平衡問題。在這裡,我擔心強大 AI 的遞歸或自我強化特性(我在本文開頭討論過):每一代 AI 都可以用於設計和訓練下一代 AI。這導致了領先優勢失控的風險,即目前強大 AI 的領導者可能能夠擴大領先優勢,且可能難以追趕。我們需要確保首先進入這個循環的不是威權國家。
此外,即使可以實現權力平衡,仍然存在世界被分割成專制勢力範圍的風險,就像在《一九八四》中那樣。即使幾個競爭大國各自擁有其強大的 AI 模型,且沒有一個能壓倒其他國家,每個大國仍然可以對內鎮壓自己的人民,且極難被推翻(因為民眾沒有強大的 AI 來保衛自己)。因此,即使 AI 賦能的專制不會導致單一國家接管世界,防止它發生仍然非常重要。
防禦措施
我們如何防禦這一系列廣泛的專制工具和潛在威脅行為者?與前幾節一樣,我認為有幾件事我們可以做。首先,我們絕對不應該向中共出售晶片、晶片製造工具或資料中心。晶片和晶片製造工具是強大 AI 的單一最大瓶頸,封鎖它們是一項簡單但極其有效的措施,或許是我們可以採取的單一最重要行動。出售給中共用來建立 AI 極權國家並可能在軍事上征服我們的工具是毫無道理的。人們提出了許多複雜的論點來為此類銷售辯護,例如「將我們的技術棧推廣到全世界」可以讓「美國在某種一般的、未指明的經濟戰鬥中獲勝」。在我看來,這就像向北韓出售核武器,然後吹噓飛彈外殼是波音製造的,所以美國「贏了」。中國在批量生產前沿晶片的能力上落後美國幾年,而建立資料中心天才國家的關鍵時期很可能就在未來的幾年內。 沒有理由在這個關鍵時期給他們的 AI 產業巨大的推動力。
其次,利用 AI 賦能民主國家抵抗專制是有道理的。這就是 Anthropic 認為向美國及其民主盟友的情報和國防界提供 AI 至關重要的原因。保衛受到攻擊的民主國家,如烏克蘭和(透過網路攻擊)台灣,似乎是重中之重,賦能民主國家利用其情報部門從內部瓦解和削弱專制政權也是如此。在某種程度上,應對專制威脅的唯一方法是在軍事上與之抗衡並超越之。如果美國及其民主盟友的聯盟在強大 AI 方面取得主導地位,它不僅能夠保衛自己免受專制侵害,還能遏制專制並限制其 AI 極權濫用。
第三,我們需要對民主國家內部的 AI 濫用劃定一條硬界線。我們必須限制政府利用 AI 做什麼,以免他們奪取權力或鎮壓自己的人民。我提出的公式是:我們應該在所有方面使用 AI 進行國防,除了那些會讓我們變得更像我們的專制對手的方式。
界線應該劃在哪裡?在本節開頭的清單中,有兩項——利用 AI 進行國內大規模監視和大眾宣傳——在我看來是鮮紅的底線,完全不合法。有些人可能會爭辯說沒有必要採取任何行動(至少在美國),因為國內大規模監視在第四修正案下已經是非法的。但 AI 的飛速進步可能會創造出我們現有的法律框架無法很好應對的情況。例如,美國政府對所有公共對話(例如人們在街角交談的內容)進行大規模錄音可能並不違憲,以前很難梳理這麼大量的資訊,但有了 AI,這一切都可以被轉錄、解讀和三角定位,從而描繪出許多或大多數公民的態度和忠誠度。我支持以公民自由為中心的立法(甚至可能是憲法修正案),對 AI 驅動的濫用施加更強的保障措施。
另外兩項——全自動武器和用於戰略決策的 AI——是更難劃定的界線,因為它們在保衛民主方面有正當用途,同時也容易被濫用。在這裡,我認為需要的是極度的謹慎和審查,並結合保障措施以防止濫用。我主要的恐懼是「按按鈕的手指」太少,以至於一個或少數幾個人就可以在不需要任何其他人類合作執行命令的情況下操作一支無人機軍隊。隨著 AI 系統變得更強大,我們可能需要更直接、更即時的監督機制來確保它們不被濫用,或許涉及行政部門以外的政府部門。我認為我們應該以極其謹慎的態度對待全自動武器, 並且在沒有適當保障措施的情況下不要急於使用它們。
第四,在對民主國家的 AI 濫用劃定硬界線後,我們應該利用這一先例建立反對強大 AI 最惡劣濫用的國際禁忌。我意識到目前的政治風向已轉向反對國際合作和國際規範,但這正是我們迫切需要它們的時候。世界需要了解強大 AI 在獨裁者手中的黑暗潛力,並認識到某些 AI 用途相當於企圖永久竊取他們的自由並強加一個他們無法逃脫的極權國家。我甚至會主張,在某些情況下,利用強大 AI 進行大規模監視、利用強大 AI 進行大眾宣傳,以及某些類型的全自動武器攻擊性用途,應被視為危害人類罪。更廣泛地說,迫切需要一個反對 AI 賦能極權主義及其所有工具和手段的強大規範。
甚至可以有比這更強硬的立場,即由於 AI 賦能極權主義的可能性如此黑暗,專制根本不是人們在強大 AI 時代後可以接受的政府形式。正如封建制度隨著工業革命變得行不通一樣, AI 時代可能不可避免且合乎邏輯地得出結論:如果人類要有美好的未來,民主(以及希望是由 AI 改進和振興的民主,如我在《慈悲的機器》中所述)是唯一可行的政府形式。
第五,也是最後一點,應該密切關注 AI 公司及其與政府的聯繫,這種聯繫是必要的,但必須有限制和邊界。強大 AI 所體現的能力之大,使得旨在保護股東和防止欺詐等普通濫用的普通公司治理不太可能勝任治理 AI 公司的任務。公司公開承諾(甚至作為公司治理的一部分)不採取某些行動也可能是有價值的,例如私下建造或囤積軍事硬體、由單個個人以不負責任的方式使用大量運算資源,或利用其 AI 產品作為宣傳來操縱公眾輿論以利於自己。
前三節本質上是關於強大 AI 帶來的安全風險:來自 AI 本身的風險、來自個人和小型組織濫用的風險,以及來自國家和大型組織濫用的風險。如果我們撇開安全風險或假設它們已得到解決,下一個問題就是經濟。這種令人難以置信的「人力」資本注入對經濟會有什麼影響?顯然,最明顯的影響將是極大地促進經濟增長。科學研究、生物醫學創新、製造業、供應鏈、金融系統效率等方面的進步步伐幾乎保證了經濟增長率會快得多。在《慈悲的機器》中,我提出 10-20% 的持續年度 GDP 增長率是可能的。
我擔心兩個具體問題:勞動力市場流失和經濟權力集中。讓我們從第一個開始。這是我在 的話題,當時我預測 AI 可能在未來 1-5 年內取代一半的初級白領工作,即便它加速了經濟增長和科學進步。這一警告引發了公眾對該話題的辯論。許多執行長、技術專家和經濟學家同意我的觀點,但其他人認為我陷入了「勞動力總量謬誤」(lump of labor fallacy),不懂勞動力市場如何運作,還有些人沒看到 1-5 年的時間範圍,認為我是在聲稱 AI 現在正在取代工作(我同意現在可能還沒有)。因此,值得詳細探討為什麼我擔心勞動力流失,以消除這些誤解。
AI 的情況可能大致相同,但我會非常強烈地賭它會有所不同。以下是我認為 AI 可能會有所不同的幾個原因:
速度。 AI 的進步速度比以往的技術革命快得多。例如,在過去兩年中,AI 模型從幾乎無法完成一行程式碼,發展到為某些人——包括 Anthropic 的工程師——。 很快,它們可能會端到端地完成軟體工程師的整個任務。 人們很難適應這種變化速度,無論是特定工作運作方式的變化,還是轉向新工作的需求。即使是傳奇程式設計師也越來越多地 。隨著 AI 程式設計模型日益加速 AI 開發任務,速度甚至可能繼續加快。明確地說,速度本身並不意味著勞動力市場和就業最終不會恢復,它只是意味著與過去的技術相比,短期轉型將異常痛苦,因為人類和勞動力市場反應緩慢且平衡緩慢。
按認知能力切分。 在廣泛的任務中,AI 似乎正在從能力階梯的底部向頂部推進。例如,在程式設計方面,我們的模型已從「平庸的程式設計師」發展到「強大的程式設計師」再到「非常強大的程式設計師」。 我們現在開始在一般的白領工作中看到同樣的進展。因此,我們面臨的風險是,AI 不是影響具有特定技能或特定職業的人(他們可以透過重新培訓來適應),而是影響具有某些內在認知屬性的人,即智力較低的人(這更難改變)。目前還不清楚這些人會去哪裡或做什麼,我擔心他們可能形成一個失業或工資極低的「底層階級」。明確地說,類似的事情以前也發生過——例如,電腦和網路被一些經濟學家認為代表了「」。但這種技能偏向既不像我預期在 AI 中看到的那麼極端,也被認為導致了工資不平等的增加, 因此這並不是一個令人放心的先例。
填補空白的能力。 人類工作在面對新技術時通常調整的方式是,工作有很多方面,而新技術即便看起來直接取代了人類,通常也存在空白。如果有人發明了製造零件的機器,人類可能仍需將原材料裝入機器。即便這只需手動製造零件 1% 的精力,人類工人只需製造 100 倍的零件即可。但 AI 除了是一項快速進步的技術外,也是一項快速適應的技術。在每次模型發布期間,AI 公司都會仔細衡量模型擅長什麼、不擅長什麼,客戶在發布後也會提供此類資訊。弱點可以透過收集體現當前差距的任務並針對下一代模型進行訓練來解決。在生成式 AI 早期,用戶注意到 AI 系統有某些弱點(如 AI 圖像模型生成的指頭數量不對),許多人認為這些弱點是技術固有的。如果是這樣,它將限制工作擾亂。但幾乎每一個這樣的弱點都會很快得到解決——通常只需幾個月。
值得探討常見的懷疑觀點。首先,有一種論點認為經濟擴散會很慢,因此即便底層技術能夠完成大多數人類勞動,其實際在經濟中的應用可能要慢得多(例如在遠離 AI 產業且採用緩慢的產業)。技術擴散緩慢 ——我與各行各業的人交談,有些地方採用 AI 需要數年時間。這就是為什麼我對 50% 初級白領工作被擾亂的預測是 1-5 年,即便我懷疑我們在不到 5 年內就會擁有強大 AI(從技術上講,這足以完成大多數或所有工作,而不僅僅是初級工作)。但擴散效應只是為我們爭取了時間。而且我不確信它會像人們預測的那樣慢。企業採用 AI 的增長速度遠快於以往任何技術,這主要歸功於技術本身的純粹實力。此外,即便傳統企業採用新技術緩慢,新創公司也會如雨後春筍般出現,作為「膠水」使採用變得更容易。如果這行不通,新創公司可能直接顛覆現有企業。
其次,有些人說人類工作將轉向物理世界,這避開了 AI 進步如此神速的整個「認知勞動」範疇。我不確定這有多安全。許多物理勞動已經由機器完成(如製造業)或很快將由機器完成(如駕駛)。此外,足夠強大的 AI 將能夠加速機器人的開發,然後在物理世界中控制這些機器人。它可能會爭取一些時間(這是一件好事),但我擔心它爭取不到多少時間。即便擾亂僅限於認知任務,它仍將是規模和速度前所未有的擾亂。
第三,或許有些任務本質上需要或極大受益於人類的接觸。對此我有點不確定,但我仍懷疑這是否足以抵消我上述描述的大部分影響。AI 已廣泛用於客戶服務。許多人 說,與 AI 談論個人問題比與治療師談論更容易——AI 更有耐心。當我妹妹在懷孕期間遇到醫療問題時,她覺得從護理人員那裡得不到所需的答案或支持,她發現 Claude 的態度更好(且在診斷問題方面更成功)。我確信有些任務人類的接觸確實很重要,但不確定有多少——而我們在這裡討論的是為勞動力市場中的幾乎每個人尋找工作。
第四,有些人可能認為比較優勢仍將保護人類。根據 ,即便 AI 在所有事情上都比人類強,人類與 AI 技能特徵之間的任何相對差異都為人類與 AI 之間的貿易和專業化提供了基礎。問題在於,如果 AI 的生產力確實是人類的數千倍,這種邏輯就會開始崩潰。即便微小的 也可能使 AI 與人類貿易變得不划算。而且人類的工資可能非常低,即便他們技術上能提供一些東西。
我們能針對這個問題做什麼?我有幾個建議,其中一些 Anthropic 已經在做。第一件事是獲取關於就業流失實時發生的準確數據。當經濟變化發生得非常快時,很難獲得關於正在發生什麼的可靠數據,而沒有可靠數據就很難設計有效的政策。例如,政府數據目前缺乏關於各企業和產業採用 AI 的細粒度、高頻數據。過去一年,Anthropic 一直在運行並公開發布 ,幾乎實時顯示我們模型的使用情況,按產業、任務、地點,甚至任務是自動化還是協作進行細分。我們還有一個 來幫助我們解讀這些數據並預見未來。
第二,AI 公司在如何與企業合作方面有選擇權。傳統企業的低效意味著其 AI 部署可能非常具有路徑依賴性,我們有空間選擇一條更好的路徑。企業通常在「成本節約」(用更少的人做同樣的事)和「創新」(用同樣的人做更多的事)之間做選擇。市場最終不可避免地會同時產生這兩者,任何具競爭力的 AI 公司都必須同時服務這兩者,但或許有空間在可能的情況下引導公司轉向創新,這可能為我們爭取一些時間。Anthropic 正在積極思考這一點。
第五,雖然上述所有私人行動都有幫助,但最終這麼大的宏觀經濟問題需要政府干預。面對巨大的經濟蛋糕加上高不平等(由於許多人缺乏工作或工資微薄),自然的政策反應是累進稅。稅收可以是普遍的,也可以是專門針對 AI 公司的。顯然稅收設計很複雜,有很多出錯的方式。我不支持設計拙劣的稅收政策。我認為本文預測的極端不平等程度基於基本的道德理由證明了更強大的稅收政策是合理的,但我也可以向全球的億萬富翁提出務實的論點,即支持一個好的版本符合他們的利益:如果他們不支持好的版本,他們不可避免地會得到一個由暴民設計的壞版本。
最終,我將上述所有干預措施視為爭取時間的方式。最後 AI 將能做所有事情,我們需要應對這一點。我希望到那時,我們能利用 AI 本身來幫助我們以適合每個人的方式重組市場,而上述干預措施能讓我們度過轉型期。
經濟權力集中
與就業流失或經濟不平等問題本身分開的是經濟權力集中的問題。第 1 節討論了人類被 AI 剝奪權力的風險,第 3 節討論了公民被政府透過武力或脅迫剝奪權力的風險。但另一種剝奪權力的方式可能發生在財富如此巨大集中的情況下,以至於一小群人憑藉其影響力有效地控制了政府政策,而普通公民因缺乏經濟槓桿而沒有影響力。民主最終是由整個人口對經濟運作是必要的這一理念所支撐的。如果這種經濟槓桿消失,那麼民主隱含的社會契約可能就會失效。,所以我在此不必詳述,但我同意這種擔憂,且擔心這已經開始發生。
明確地說,我不反對人們賺大錢。有強而有力的論點認為,在正常條件下這能激勵經濟增長。我同情那些擔心殺死下金蛋的鵝會阻礙創新的疑慮。但在 GDP 每年增長 10-20%、AI 迅速接管經濟,而單個個人持有的財富佔 GDP 相當比例的情境下,創新不是需要擔心的事。需要擔心的是會破壞社會的財富集中程度。
美國歷史上極端財富集中的最著名例子是 ,而鍍金時代最富有的工業家是 。洛克斐勒的財富相當於當時美國 GDP 的約 2%。 今天的類似比例將導致 6000 億美元的財富,而當今世界首富(伊隆·馬斯克)已經超過了這個數字,。因此,甚至在 AI 的大部分經濟影響顯現之前,我們就已經處於歷史上空前的財富集中水平。我不認為想像 AI 公司、半導體公司以及可能的下游應用公司每年產生約 3 兆美元的收入, 估值約 30 兆美元,並導致個人財富遠超兆級,是太過牽強的事(如果我們得到一個「天才國家」)。在那個世界裡,我們今天關於稅收政策的辯論將根本不適用,因為我們將處於一個根本不同的境地。
與此相關,這種經濟財富集中與政治體系的耦合已經令我擔憂。AI 資料中心已經佔據了美國經濟增長的相當大比例, 因此正將大型科技公司(越來越專注於 AI 或 AI 基礎設施)的財務利益與政府的政治利益緊密聯繫在一起,這可能產生扭曲的激勵。我們已經透過科技公司不願批評美國政府,以及政府支持極端的 AI 反監管政策看到了這一點。
第二,AI 產業需要與政府建立更健康的關係——一種基於實質政策參與而非政治結盟的關係。我們選擇參與政策實質而非政治,有時被解讀為戰術錯誤或未能「察言觀色」,而非一個原則性決定,這種定性令我擔憂。在健康的民主制度中,公司應該能夠為好的政策本身而倡導。與此相關,公眾對 AI 的反彈正在醞釀:這可能是一種修正,但目前缺乏焦點。其中大部分針對並非真正問題的事項(如 ),並提出無法解決真正擔憂的方案(如資料中心禁令或設計拙劣的財富稅)。值得關注的底層問題是確保 AI 發展對公眾利益負責,不被任何特定的政治或商業聯盟俘虜,將公眾討論聚焦於此似乎很重要。
第三,我本節前面描述的宏觀經濟干預,以及私人慈善事業的復興,可以幫助平衡經濟天平,同時解決就業流失和經濟權力集中的問題。我們應該回顧國家的歷史:即使在鍍金時代,像 和 這樣的工業家也對整個社會感到強烈的義務,覺得社會對他們的成功貢獻巨大,他們需要回饋。這種精神今天似乎日益缺失,我認為這是走出經濟困境的重要途徑。那些處於 AI 經濟繁榮前沿的人應該願意放棄他們的財富和權力。
5. 無盡的黑海
間接影響
最後一節是針對「未知的未知」的綜合討論,特別是那些作為 AI 正面進展以及隨之而來的科學技術全面加速的間接結果而可能出錯的事情。假設我們解決了目前為止描述的所有風險,並開始收穫 AI 的好處。我們很可能得到一個「」,這對世界將是非常正面的,但我們隨後必須應對這種快速進步帶來的問題,而這些問題可能會接踵而至。我們還可能遇到其他作為 AI 進步後果間接發生且難以預見的風險。
AI 以不健康的方式改變人類生活。 一個擁有數十億個在所有事情上都比人類聰明得多的智慧體的世界,將是一個非常怪異的世界。即便 AI 不主動攻擊人類(第 1 節),且不被國家明確用於壓迫或控制(第 3 節),在正常的商業激勵和名義上的自願交易下,仍有很多事情可能出錯。我們在關於 AI 精神病、 的擔憂,以及關於與 AI 建立浪漫關係的擔憂中看到了早期跡象。舉例來說,強大 AI 是否可能發明某種新宗教並使數百萬人皈依?大多數人是否最終會以某種方式「成癮」於 AI 互動?人們是否最終會被 AI 系統「傀儡化」,即 AI 監視他們的一舉一動並隨時告訴他們該做什麼、該說什麼,導致一種「美好」但缺乏自由或任何成就感的生活?如果我與 的創作者坐下來腦力激盪,產生幾十個這樣的情境並不難。我認為這指向了改進 的重要性,這超出了預防第 1 節問題所需的範疇。確保 AI 模型真的將用戶的長期利益放在心上,以一種深思熟慮的人會認可的方式,而非以某種微妙扭曲的方式,似乎至關重要。
人類目標。 這與前一點相關,但與其說是關於人類與 AI 系統的具體互動,不如說是關於在一個擁有強大 AI 的世界中,人類生活總體上如何變化。人類在這樣一個世界中能找到目標和意義嗎?我認為這是一個態度的問題:正如我在《慈悲的機器》中所說,我認為人類的目標並不取決於成為世界上某件事做得最好的人,人類即使在很長一段時間內也能透過他們熱愛的故事和計畫找到目標。我們只需要打破經濟價值產生與自我價值及意義之間的聯繫。但這是社會必須經歷的轉型,總有我們處理不好的風險。
我對所有這些潛在問題的希望是,在一個我們信任不會殺死我們、不是壓迫性政府工具、且真正代表我們工作的強大 AI 世界中,我們可以利用 AI 本身來預見並預防這些問題。但這並非保證——就像所有其他風險一樣,這是我們必須小心處理的事情。
花時間仔細構建 AI 系統以使其不會自主威脅人類,這與民主國家需要保持領先於威權國家且不被其征服的需求之間存在真實的緊張關係。但反過來,同樣的那些對抗專制所需的 AI 賦能工具,如果走得太遠,也可能轉向內部在我們自己的國家創造暴政。AI 驅動的恐怖主義可能透過濫用生物學殺死數百萬人,但對這種風險的過度反應可能導致我們走向專制監視國家的道路。AI 的勞動力和經濟集中效應,除了本身就是嚴重的問題外,還可能迫使我們在公眾憤怒甚至社會動盪的環境中面對其他問題,而非能夠喚起我們天性中更好的一面。最重要的是,風險的數量之多,包括未知的風險,以及同時處理所有風險的需求,創造了一個令人生畏的考驗,人類必須通過。
此外,過去幾年應該清楚地表明,停止甚至實質性放慢這項技術的想法在根本上是站不住腳的。構建強大 AI 系統的公式非常簡單,以至於可以說它是從數據和原始運算的正確組合中自發產生的。它的創造可能在人類發明電晶體的那一刻,或者可以說在我們第一次學會控制火的那一刻就已不可避免。如果一家公司不建造它,其他公司也會幾乎同樣快地建造。如果民主國家的所有公司都透過共同協議或監管法令停止或放慢開發,那麼威權國家只會繼續前進。鑑於這項技術驚人的經濟和軍事價值,加上缺乏任何有意義的執行機制,我看不出 。
我確實看到了一條與 相容的、稍微放緩 AI 發展的路徑。那條路徑涉及透過拒絕專制國家構建強大 AI 所需的資源(即晶片和半導體製造設備),將其邁向強大 AI 的步伐放慢幾年。 這反過來給了民主國家一個緩衝期,可以用來更仔細地構建強大 AI,更多地關注其風險,同時仍保持足夠快的速度以輕鬆擊敗專制國家。民主國家內 AI 公司之間的競爭隨後可以在統一的法律框架下,透過產業標準和監管的結合來處理。
Anthropic 一直在非常努力地倡導這條路徑,推動晶片出口管制和對 AI 的審慎監管,但即使是這些看似常識性的提議,在很大程度上也被美國(這是最需要這些提議的國家)的決策者拒絕了。AI 能賺到的錢太多了——每年高達數兆美元——以至於即使是最簡單的措施也很難克服 AI 固有的 。這就是陷阱:AI 是如此強大,如此誘人的獎賞,以至於人類文明很難對其施加任何限制。
儘管障礙重重,我相信人類內在擁有通過這項測試的力量。成千上萬的研究人員致力於幫助我們理解和引導 AI 模型,並塑造這些模型的性格和憲法,這讓我深受鼓舞和啟發。我認為這些努力現在有很好的機會及時開花結果。至少有一些公司 實質性的商業成本,以阻止其模型助長生物恐怖主義威脅,這讓我深受鼓舞。少數勇敢的人抵制了盛行的政治風向,並 了 ,為 AI 系統種下了第一批明智保障措施的種子,這讓我深受鼓舞。 ,這讓我深受鼓舞。全世界不屈不撓的自由精神和抵抗暴政的決心,這讓我深受鼓舞。
^(16) 甚至有一個關於將基於性格的憲法 AI 方法與可解釋性和對齊科學結果聯繫起來的深層統一原理的假設。根據該假設,驅動 Claude 的基本機制最初是作為它在預訓練中模擬角色的一種方式而產生的,例如預測小說中的角色會說什麼。這表明思考憲法的一個有用方式更像是一個角色描述,模型用它來實例化一個一致的人格。這也將幫助我們解釋我上面提到的「」的結果(因為模型正試圖表現得像一個連貫的角色——在這種情況下是一個壞角色),並表明可解釋性方法應該能夠發現模型內部的「心理特徵」。我們的研究人員正在研究測試這一假設的方法。
^(29) 為什麼我更擔心大型行為者奪取權力,而擔心小型行為者造成破壞?因為動態不同。奪取權力是關於一個行為者是否能積聚足夠的力量來壓倒所有人——因此我們應該擔心最強大的行為者和/或最接近 AI 的行為者。相比之下,如果破壞比防禦容易得多,那麼破壞可以由幾乎沒有權力的人造成。這就變成了一場防禦最眾多威脅的遊戲,而這些威脅很可能是較小的行為者。
^(30) 這聽起來可能與我認為網路攻擊的攻防平衡比生物武器更平衡的觀點相矛盾,但我這裡的擔憂是,如果一個國家的 AI 是世界上最強大的,那麼即使技術本身具有內在的攻防平衡,其他人也無法防禦。
^(42) 個人財富是一個「存量」,而 GDP 是一個「流量」,所以這並非聲稱洛克斐勒擁有美國 2% 的經濟價值。但衡量一個國家的總財富比衡量 GDP 更難,且人們的個人年收入波動很大,所以很難用同樣的單位進行比例計算。最大個人財富與 GDP 的比例雖然不是蘋果對蘋果的比較,但仍然是衡量極端財富集中程度的一個完全合理的基準。