newsence
來源篩選

Long-term risks from ideological fanaticism

Lesswrong

Ideological fanaticism poses a significant long-term threat to humanity by increasing existential risks and the potential for astronomical suffering through extreme certainty, tribalism, and the misuse of advanced AI. Addressing these risks requires recognizing how fanatical values can undermine global stability and prevent the realization of a flourishing future.

newsence

意識形態狂熱的長期風險

Lesswrong
16 天前

AI 生成摘要

意識形態狂熱透過極端的確定性、部落主義以及對先進人工智慧的誤用,增加了生存風險與造成天文級苦難的可能性,對人類構成重大的長期威脅。應對這些風險需要體認到狂熱價值觀如何破壞全球穩定,並阻礙繁榮未來的實現。

這篇文章最初發布於

摘要

  • 歷史上最具破壞性的意識形態——如納粹主義、極權共產主義和宗教原教旨主義——展現出極其

    • 認識論與道德上的絕對確定性
    • 極端的部落主義,將人類劃分為神聖的「我們」和邪惡的「他們」
    • 願意採取任何必要手段,包括殘酷的暴力。
  • 這種意識形態狂熱是 1800 年以來十個中八個的主要驅動力,包括太平天國之亂、第二次世界大戰,以及史達林、毛澤東和希特勒的政權。

  • 我們而非極權主義等相關概念,部分原因是它能更好地捕捉「終極偏好」(terminal preferences),隨著我們接近超智能 AI 和技術成熟期,這可能最為關鍵。

  • 意識形態狂熱的,僅控制全球 GDP 的極小部分。然而,仍有至少數億人持有狂熱觀點,許多政權表現出令人擔憂的意識形態傾向,且過去二十年見證了廣泛的民主倒退。

  • 尚不明確。狂熱主義面臨許多劣勢,包括起點低、認識論薄弱以及難以建立廣泛聯盟。但它的優勢在於更願意採取極端手段、擁有熱情的群眾追隨者,以及在技術和社會動盪中生存甚至壯大的歷史傾向。除了完全的勝利或失敗,多極化狀態可能會無限期持續,狂熱者永久控制宇宙中不容忽視的一部分,並可能利用超智能 AI 來鞏固其統治。

  • 意識形態狂熱通過多個相互強化的路徑

    • 意識形態狂熱。狂熱者的神聖價值觀和對外群體的敵意通常排除了妥協的可能性,而他們非理性的過度自信和差異化的承諾可信度使得談判失敗的可能性更高。狂熱者甚至可能歡迎衝突,而非將其視為代價高昂的最後手段。
    • 。在我們對 1,084 人的調查中,美、英、巴基斯坦有 11–14% 的人同意:如果地獄不存在,我們應該創造它來永遠以極端痛苦懲罰惡人;且在被問及惡人應受多久無法忍受的痛苦時,分別選擇了「永遠」,同時表示至少 1% 的人類應得此命運。在中國、沙烏地阿拉伯和土耳其,這一比例為 19–25%。類似問題也顯示出大致相當的模式。先進 AI 可能使狂熱者真正實現這類偏好。
    • 狂熱者深信自己的正義性,拒絕進一步的反思並尋求鎖定當前價值觀,這,即人類仔細審議如何實現其潛力的願景。狂熱者將妥協與合作視為背叛,似乎更有可能反對道德貿易並使用敵對的談判策略。他們不寬容且「挑剔」的偏好可能將幾乎所有物質配置視為不道德,包括那些包含巨大繁榮的配置,從而可能導致天文級的浪費。
    • 如果人類委託人是狂熱或惡意的,單靠 也無濟於事:與史達林對齊的 AI 可能不會帶來烏托邦。狂熱者即使在偏好理想化後,也可能反思性地認可其現有價值觀。因此,最糟糕的未來可能源於意識形態狂熱者對意圖對齊 AI 的濫用,而非源於未對齊的 AI。
    • 意識形態狂熱還帶來,包括極端優化和差異化的智力退化。
  • 最相關的雖然並非首創,但可分為兩個重疊的類別。

    • 包括加強和維護自由民主、減少政治極化、推廣古典自由主義等反狂熱原則,以及促進國際合作。
    • 似乎具有更高的槓桿作用。算力治理和信息安全可以降低變革性 AI 落入狂熱和惡意行為者手中的可能性。鑑於這類行為者傾向於奪權,防止 AI 輔助的政變可能尤為重要。其他有前景的干預包括主動利用 AI 大規模改善認識論、開發具備抗狂熱能力的後 AGI 治理框架,以及使變革性 AI 本身減少狂熱傾向——例如,引導其性格趨向智慧與仁慈。

我們所說的意識形態狂熱是什麼意思?

思考歷史上一些最嚴重的暴行。在猶太人大屠殺中,納粹政權建立了一套工業化體系,系統性地屠殺了六百萬猶太人及其他被視為「次等人」的群體。在大清洗期間,史達林的秘密警察折磨了數十萬人,直到他們承認虛構的叛國罪行後將其處決。一個世紀前,太平天國之亂奪走了超過兩千萬人的生命,一名自稱彌賽亞的追隨者發動了一場聖戰,旨在清除世界上的「妖魔」。

這些以及許多其他恐怖事件在很大程度上是由三種狂熱意識形態驅動的:法西斯民族主義極權共產主義宗教原教旨主義。事實上,這三種狂熱意識形態可以說是 1800 年以來大多數大規模暴力死亡事件的元兇,我們將在探討這一點。

雖然這些及其他破壞性意識形態的具體信仰差異巨大,但其背後的思維、情感和行為模式卻驚人地相似。許多框架可以總結這些動態,但我們關注三個相互強化的特徵——狂熱三要素(fanatical triad)——因為它們幾乎出現在所有相關案例中,且簡單易記:

  • 絕對的認識論與道德確定性;
  • 摩尼教式的部落主義,將人類劃分為神聖的「我們」和不可救藥的邪惡「他們」;
  • 願意採取任何必要手段,包括殘酷的暴力。

雖然「狂熱三要素」是我們自創的術語,但這三個特徵中的每一個都借鑒了成熟的學術概念,包括教條主義、部落主義和極權主義。(參見,了解將每個「狂熱三要素」組成部分與現有學術研究和歷史案例研究聯繫起來的廣泛概述。)

意識形態狂熱與「極端主義」非常相似,但後者通常描述社會邊緣的反體制運動(Bötticher, )。^()相比之下,我們同樣擔心狂熱意識形態獲得主流認同並奪取國家權力的風險。「狂熱」一詞也更能體現我們想要強調的那種狂熱、不妥協的仇恨。我們的術語不應與「帕斯卡式」期望價值相混淆。^()

狂熱世界觀的一個首要特徵是黑白分明的思維(善與惡、我們與他們),沒有細微差別的空間。讓我們不要犯同樣的錯誤。像大多數現象一樣,意識形態狂熱存在於一個連續光譜上。離狂熱最遠的是那些遵循理性和證據、對所有人懷有仁慈之心的少數覺醒者。廣大的中間地帶由宗教傳統主義者、過度黨派化的活動家、陰謀論者和許多其他人佔據。事實上,某種輕微形式的意識形態狂熱可以說是人類的天性:我們都多少傾向於過度自信、動機性推理,以及部落主義式的內群體偏袒和外群體歧視(例如 Kunda, 1990; Diehl, 1990; Hewstone et al., 2002)。^()但意識形態狂熱者將這些特質推向了極端。

I. 教條的確定性:認識論與道德鎖定

最熱忱的狂熱者完全相信他們已經找到了掌握終極真理和正義的唯一無誤權威;他們是典型的教條主義者(Rokeach, 1960)。對於宗教原教旨主義者來說,這通常是一本包含上帝及其先知神聖啟示的聖經。對於納粹分子來說,是希特勒的(Führerprinzip),由魯道夫·赫斯宣告「領袖永遠是對的」而法典化。同樣,許多共產主義革命者基本上對馬克思的《資本論》等基礎文本或黨本身抱有絕對信仰(Montefiore, 2007)。「是一個不會犯錯的組織」是紅色高棉的核心口號。^()

對於狂熱者來說,任何對這些教條的懷疑或偏離不僅是錯誤的,而且是邪惡的,最終形成一種完全的「士兵心態」,不惜一切代價捍衛既有的意識形態(Galef, )。這必然導致放棄最基本的經驗主義,轉而「拒絕親眼所見、親耳所聞的證據」,套用的話。^()因此,狂熱者本質上是,即使面對廣泛的反對,也沒有認識論或(Gollwitzer et al., 2022)。^()

II. 摩尼教式的部落主義:對我們的完全奉獻,對他們的完全仇恨

基於人類天生固有的部落本能(Clark et al., ),這種教條的確定性既強化了也受強化於一種極端形式的「摩尼教式部落主義」,將世界視為善與惡之間的宇宙衝突。^()例子包括「雅利安人」與「劣等」種族之間的種族鬥爭(納粹主義)、針對階級敵人的革命鬥爭(共產主義),或上帝與撒旦勢力之間的精神戰鬥(宗教原教旨主義)。

隨著狂熱者的內群體和意識形態成為他們歸屬感和意義的唯一來源,他們的個人身份與集體融合,導致對事業的全心奉獻和對領導者的服從^()(Katsafanas, 2022b; Varmann et al., 2024)。這通常通過群體動態進一步放大,成員們通過擁抱日益極端的觀點和懲罰哪怕是最輕微的異議來競相證明忠誠。最虔誠的狂熱者渴望為事業而死,如日本神風特攻隊飛行員或宗教自殺式炸彈襲擊者(Atran & Ginges, 2015)。例如,納粹主義錨定在對希特勒的「無條件忠誠」(Hess, )和承諾無條件「服從至死」的上。同樣,數百萬共產主義者是真正的信徒,紅衛兵誓言「誓死保衛毛主席及其革命」就是明證(Chang, 2008; Dikötter, 2016)。

支撐這種極端奉獻的是對被的外群體同樣強烈的仇恨和怨恨(Szanto, 2022; Katsafanas, 2022a)。這個外群體通常範圍廣大,可能包括任何僅僅不同意該意識形態部分主張的人——例如史達林處決托洛茨基分子,或伊斯蘭國因虔誠度不足而謀殺其他穆斯林。在和陰謀論思維的驅使下,狂熱者通常將這個外群體當作幾乎所有問題的替罪羊。通常,人們認為這個敵人應該受到極端的懲罰,從和系統性滅絕,到不信者被詛咒受永恆折磨的宗教地獄願景。

狂熱者強化了與純潔和厭惡相關的道德本能(參見 Haidt, 2012),可能將所有妥協視為對其不可侵犯的神聖價值觀的背叛(Tetlock, ),這通常導致一種零和心態,即唯一可接受的結果是意識形態的徹底勝利。

III. 不受約束的暴力:任何必要手段

「任何不源於精神基礎的暴力,都將是動搖和不確定的。它缺乏唯有建立在狂熱世界觀之上才能擁有的穩定性。」
——阿道夫·希特勒,1925年

大多數人類由於各種防護欄(如本能的傷害厭惡、社會規範、同理心和對他人痛苦的憐憫)而對實施暴力感到猶豫。為了進一步強化我們天性中這些善良的天使,人類辛勤開發了複雜的道德和制度框架,如德性倫理、義務論、權力分立和法治。^()

狂熱者把這些胡言亂語通通扔出窗外。他們確信自己是在一場對抗邪惡的全面戰爭中捍衛正義的力量。他們的勝利將救贖這個「卑劣的世界」(Stankov et al., 2010)並開啟烏托邦,無論是完美的共產主義社會、千年帝國,還是宗教天堂。這些生存攸關的利害關係證明了任何必要手段都是正當的,無論多麼極端。

事實上,一些狂熱者甚至顛倒了整個道德範式,將他人認為最可惡的事情神聖化。同情、誠實和節制^()變成了軟弱;違法、欺騙和暴力變成了美德。^()例如,伊斯蘭國戰士拍攝自己活活燒死受害者的過程,並自豪地分發這些影片。

擁有足夠的權力後,狂熱者可以實現他們的願景:對社會進行極權控制,消除個人自由,並強迫每個人服從他們的意識形態——必要時使用審查、宣傳甚至大規模謀殺(Arendt, 1951)。^()

作為多維連續體的狂熱主義

意識形態狂熱不僅僅是一個單一的滑動標尺。相反,它是多維的,也就是說,人們在狂熱三要素的每個組成部分上可能表現出不同的水平。最具危險性的意識形態狂熱形式需要所有三個特徵都處於高水平。例如,一個假設的「貝氏納粹分子」會缺乏絕對的確定性,因此仍保持改變主意的可能性。同樣,如果沒有摩尼教式的仇恨,就沒有造成大規模傷害的動機;而如果沒有使用暴力的意願,即使是最仇恨的信仰也保持惰性。

狂熱運動也不是鐵板一塊。^()雖然他們的領導人通常是惡性自戀者,但他們的追隨者往往是在混亂、令人失望的世界中拼命尋求意義和確定性的普通人(Hoffer, 1951; Kruglanski et al., 2014; Tietjen, 2023)。並非所有人都是真正的信徒:有些人只是順從群體壓力,有些人是憤世嫉俗的機會主義者,還有許多人介於兩者之間。^()許多狂熱者最終是能夠的,所以我們不應將他們妖魔化為不可救藥的邪惡。

最後,雖然相關,但我們不應將狂熱與強烈的道德信念相混淆(Skitka et al., 2021)。^()例如,馬丁·路德·金爾持有當時看來極其進步的觀點,但他對證據保持開放態度,尋求跨種族的聯盟建設,並明確反對暴力。

意識形態狂熱驅動了近代史上大多數最嚴重的暴行

我們擔心意識形態狂熱可能帶來重大未來風險的一個原因是其慘痛的歷史記錄。意識形態狂熱似乎是 1800 年以來十個最嚴重暴行中八個的主要驅動力。^()在下表中,我們僅包括涉及蓄意^()大規模殺戮的事件,排除了意外的飢荒和流行病^(),

這個表格比看起來更有信息量,因為暴行死亡人數遵循長尾分佈:在 中(總計 2.66 億人死亡),僅前十名最嚴重的暴行就佔了 1.81 億人死亡,即總數的 68%*,因此具有不成比例的解釋價值。

需要明確的是,這些死亡人數估計值是不確定的(特別是同治回亂)。我們還在時間範圍、分類和分組方面做出了一些可商榷的判斷(例如,二戰可以算作一項,而不是拆分為三項)。然而,我們非常有信心核心發現是穩健的:意識形態狂熱促成了 1800 年以來大規模暴力死亡的大多數。^()

參見,了解我們的方法論以及其他未進入前十名的暴行的廣泛討論。有三個遺漏因其規模和恐怖程度而引人注目:/****各造成超過 1,500 萬人死亡,但主要發生在 1800 年之前。出於各種方法論和務實的原因,我們也排除了對,如工廠化養殖,每年殺死數千億隻動物——這可以說是我們這個時代最大的道德災難。

當然,沒有任何單一因素能完全解釋任何歷史暴行。除了意識形態狂熱外,其他關鍵原因和風險因素還包括政治和經濟不穩定(如威瑪共和國)、個人和群體之間的權力尋求與競爭(幾乎存在於所有暴行中)、不平等與剝削(如剛果自由邦)、歷史恩怨以及領導人的個人性格。^()此外,這些因素通常以相互強化的方式與意識形態狂熱相互作用:例如,政治和經濟不穩定使狂熱意識形態更具吸引力,而狂熱意識形態往往進一步加劇經濟和政治混亂。

總體而言,對於這十個暴行中的八個,我們的感覺是意識形態狂熱至少是少數幾個最重要的因果因素之一。^()即使是表中兩個非狂熱項——利奧波德的剛果(主要由貪婪驅動)和第一次世界大戰(主要由地緣政治競爭驅動)——也至少部分受到某種形式的意識形態狂熱驅動:分別是殖民種族主義和狂熱的民族主義。

死亡人數無法捕捉所有傷害

雖然死亡人數與許多其他傷害(如匱乏、壓迫和酷刑)相關,^()但即使死亡人數相對較低,也可能發生極端的苦難。我們之所以選擇死亡人數作為指標,是因為它是易於衡量的——肯定比試圖計算文獻記錄匱乏的歷史時期中,質量調整生命年(QALYs)的反事實淨變化要容易得多。

以北韓為例。近幾十年來,這個極權政權「僅」造成了數十萬人死亡。然而,其 2,600 萬居民中絕大多數人的生活充滿了痛苦。大多數人極端貧困;近一半。從幼年起,公民就接受洗腦,並被剝奪了基本的遷徙和信息自由。為了鎮壓異議,著一個政治犯集中營網絡,強迫勞動、酷刑、虐待和即決處決是常態。整個國家基本上是一個被囚禁的勞動力,生活在暴力和監禁的恆常威脅恐懼中。

相比之下,南韓人享有大得多的自由,且財富是北韓的 。自 20 世紀中葉兩國分裂以來出現的差異,幾乎可以作為一個自然實驗,證明意識形態狂熱(以及其他因素^())造成巨大苦難的能力,即使它沒有導致數百萬人的暴力死亡。

蓄意傷害與自然或意外傷害

我們關注蓄意死亡,因為這最能揭示終極偏好,而終極偏好又最能預測未來的傷害

蓄意死亡最能揭示終極偏好:如果我們包含所有死亡,我們的表格將被與年齡相關的疾病、傳染病、意外飢餓所佔據;這些類別幾乎無法告訴我們關於意圖的信息。這種區分也反映了共同的道德直覺和法律:謀殺比過失殺人更嚴重,部分原因是前者揭示了意圖(「預謀惡意」)且對未來傷害的預測性更強。

:從長期主義的角度來看,蓄意與非蓄意傷害之間的區別更為重要。如果文明生存得足夠久,持續的科學進步可能會導致許多影響深遠的技術發明——如超智能 AI、先進太空飛行或納米技術。一個處於「技術成熟期」^()的文明將對宇宙擁有巨大的控制力,因此結果可能,而非由自然過程或意外後果決定。我們已經可以觀察到這一軌跡的早期跡象:例如,自 1800 年以來,傳染病和飢餓造成的死亡人數大幅下降,這在很大程度上歸功於人類日益增長的技術能力。因此,雖然自然和意外傷害在目前仍佔主導地位,但蓄意傷害極有可能成為未來傷害的主要來源。(關於相關但更複雜的分類,另請參見之間的區別^()。)

為什麼強調意識形態狂熱而非極權主義等政治制度?

先前關於社會政治生存風險因素和歷史暴行的討論,大多傾向於關注極權主義(如 Arendt, 1951; Caplan, 2008; Clare, )、專制(Applebaum, 2024)、威權主義(如 MacAskill & Moorhouse, ; Aird, 2021; Adorno, 1950)以及維護民主(如 Koehler, ; Garfinkel, ; Yelnats, 2024)等概念。^()那麼,為什麼要關注意識形態狂熱而非這些更成熟的概念呢?

一個主要的區別在於,上述概念主要描述政治制度。我們可以將這些視為一個從開放封閉社會的連續光譜(Popper, )。根據 Linz (2000) 的觀點,自由民主制佔據了這個光譜的「開放」端——具有競爭性選舉、公民自由和對權力的制度制衡。威權主義佔據中間地帶,將權力集中在單一領導人或政黨手中,同時容忍有限的私人自主。極權主義,如史達林時期的蘇聯或戰時納粹德國,代表了「封閉」的終點:威權主義加上徹底的意識形態控制、群眾動員以及幾乎所有私人生活的消除。雖然所有極權政權必然是威權的,但大多數威權政權從未完全滑向極權主義。

相比之下,我們的重點是意識形態狂熱者所特有的底層心態和危險的終極價值觀。^()正如我們將論證的,從長期主義的角度來看,這些因素可能更為重要^(),因為它們:i) 可以;ii) 帶來的風險可能特定的政府形式而出現,尤其是在 AGI 時代。因此,儘管我們的方法與先前的工作(特別是關於極權主義的研究^())有實質性的重疊,我們相信意識形態狂熱的視角仍然具有價值。

狂熱和極權政權造成的傷害遠超所有其他政權類型

首先,讓我們以實證數據為基礎進行討論。我們按政權類型(極權、威權、民主、非政府)和動機(狂熱 vs. 非狂熱)分析了 1800 年以來大規模暴力的死亡人數:

歷史是混亂的,我們不是歷史學家,因此我們對許多分類仍不確定——參見了解我們的數據、推理和方法論。^()即便如此,數據表明我們應該最關注極權主義和意識形態狂熱(通常兩者結合),因為它們涉及了大多數大規模暴力死亡:^()極權政權佔所有死亡人數的 60%(1.53 億),而所有政權類型中的狂熱行為者佔總死亡人數的 69%*(1.74 億)。在威權政權中,由狂熱意識形態驅動的政權同樣具有不成比例的破壞性。總體而言,非狂熱行為者僅對 16% 的總死亡人數(4,000 萬)負責,而民主政權則不到 3%。

作為風險因素的威權主義

當然,我們不應忽視威權主義,它仍佔所有死亡人數的 30%(7,600 萬)。威權主義也是極權主義的關鍵風險因素,而民主制度則起到保護屏障的作用。從威權主義轉向極權主義相對容易:主要需要獨裁者(以及可能的統治精英關鍵成員)加強已經存在的集權控制機器。相比之下,將民主國家轉變為極權國家是一項艱巨得多的任務。它需要拆除一整套正式的權力制衡體系,並破壞民主規範和公眾對個人自由的預期。

價值觀改變政治制度:意識形態狂熱者尋求極權主義而非民主

正如我們的數據所示,極權主義與意識形態狂熱之間的重疊是巨大的:在狂熱行為者造成的 1.74 億死亡中,近 80%(1.38 億)來自極權政權。那麼為什麼不放棄狂熱視角而僅關注極權主義呢?一個原因是意識形態狂熱在因果關係上可能處於上游:狂熱者尋求創造極權政治制度,其程度遠超反向過程。

思考歷史證據。顯而易見,希特勒、列寧、史達林和毛澤東^()——以及他們所捍衛的狂熱意識形態——是創造歷史上最糟糕極權政權(納粹德國、蘇聯和毛澤東時代的中國)的主要因果力量(在眾多因素中)。關鍵在於,這些人很可能在。希特勒在奪權近十年前出版的《我的奮鬥》(1925)中就展現了狂熱三要素:對種族理論的絕對確定性、將人類劃分為優等雅利安人與劣等敵人的摩尼教式劃分,以及對暴力的明確倡導。列寧宣稱「馬克思主義學說之所以萬能,是因為它是正確的」(1913),並主張「一場拼死的、流血的滅絕戰爭」(1906)。毛澤東同樣在獲得政權前很久就表現出教條的確定性,並擁抱暴力作為革命轉型的必要手段。他們建立的極權政權是這些預先存在信念的後果。

這種模式並非巧合,因為意識形態狂熱者需要極權制度來實現其願景。如果你相信人類很大一部分是不可救藥的邪惡,且理應受到極端懲罰或滅絕,那麼賦予他們政治權利、個人自由和法律面前的平等地位在道德上就變得令人厭惡。因此,意識形態狂熱與民主原則在結構上是不相容的。^()實證證據支持這類理論論點。意識形態極端分子(無論左翼還是右翼)對民主的支持度較低^()(Torcal & Magalhães, 2022),且更有可能支持威權政策(Manson, 2020)。^()

終極價值觀可能獨立於政治制度而發揮作用,尤其是在 AGI 時代

或許更重要的是,意識形態狂熱者的心態在我們中扮演著重要角色。正如我們稍後將討論的,單靠政治制度無法完全解釋非理性或神聖價值觀作為的現象。它們也無法解釋由驅動的酷刑行為、的價值觀鎖定,或

歷史上,單個或少數人類除非控制了國家,否則無法造成太大傷害,但即將到來的變革性技術(如超智能 AI)可能會徹底改變這一點:一個控制了超智能意圖對齊 AI 的狂熱者(或一小群人)——或者一個具有狂熱價值觀的超智能未對齊 AI——可能積聚巨大的力量並造成天文級的傷害。即使在極權或其他暴政體系不再存在的世界中,這也是可能的。關鍵問題在於,足夠強大的技術可以將傷害能力與國家控制脫鉤。

狂熱主義與惡意(黑暗人格特質)的聯繫

(我們用來指代具有高度如自戀、馬基雅維利主義、心理病態或施虐癖的個體的簡稱)所構成的威脅,與意識形態狂熱者帶來的風險相關但有所不同。並非所有狂熱者都具有高度的黑暗特質,許多人實施恐怖行為是出於真誠的道德信念。^()相反,許多惡意個體並非意識形態狂熱者,例如泰德·邦迪等連環殺手。一個關鍵區別在於,許多意識形態狂熱者願意為其事業犧牲甚至死亡,而惡意個體通常是以自我為中心和利己主義的。

然而,意識形態狂熱與惡意確實有相當大的重疊:

  • 高水平的黑暗四分體特質使人更容易受到意識形態狂熱的影響。例如,心理病態者、惡性自戀者或施虐者天生更傾向於對敵人感到徹底的仇恨並實施殘酷暴力。事實上,具有黑暗特質的人可能會被那些能為此類行為提供正當理由的信仰體系所吸引。實證研究表明,黑暗特質與對極端意識形態的有關。
  • 與此相關,狂熱意識形態的領導者幾乎總是表現出極高的黑暗特質(史達林、毛澤東、希特勒、波布等)。其中一些特質,特別是自戀,顯然驅使這些人物發明狂熱意識形態或重新包裝現有意識形態^(),而心理病態和馬基雅維利主義則使他們能夠實施領導這類運動通常所需的殘酷暴力。令人擔憂的是,狂熱意識形態可以為這些惡意個體提供數百萬虔誠的追隨者,這些追隨者被絕對的信念和忠誠蒙蔽,無法識別他們所支持的領導者的惡意特質。^()
  • 意識形態狂熱者和惡意行為者都不同尋常,因為他們往往內在地重視他人的痛苦,甚至可能反思性地認可這一點。^()意識形態狂熱和惡意也是及隨後威脅的主要風險因素——這是 s-risks 的另一個主要來源(Clifton, )。未來總預期負價值(disvalue)顯然由代理性 s-risks 主導^(),這使得意識形態狂熱和惡意變得極其危險。^()
  • 因此,惡意和意識形態狂熱都代表了源自「」的風險,因此對 AI 對齊具有令人擔憂的影響:「對齊的 AI」聽起來很棒,直到考慮到這可能包括與對齊的 AI。因此,最糟糕的結果可能不是源於未對齊的 AI,而是源於狂熱或惡意行為者對意圖對齊 AI 的災難性濫用(或者開發出了繼承其創造者惡意和狂熱價值觀的 AI)。^()
  • 許多干預措施可以同時降低惡意和意識形態狂熱帶來的風險,例如防止(AI 輔助的)政變、改善算力治理和信息安全,或維護自由民主。

我們認為兩者都很重要,但希望強調意識形態狂熱是一個額外但相關的風險因素。

意識形態狂熱的現狀影響力

為了更好地理解狂熱意識形態對未來可能擁有多大的影響力——這是我們最終關心的問題,也是下一節的主題——我們首先簡要討論它們在當前的影響力。我們首先將今天的狀況置於歷史背景中。

歷史視角:過去更糟,但我們正在倒退

今天的世界總體上比早期狂熱程度低得多,特別是在中世紀的某些時期,宗教狂熱、教條主義、公開酷刑和處決司空見慣,幾乎全人類都生活在專制統治下。我們現在所理解的民主和人權在當時基本上根本不存在。^()

更近一點,1940 年代初期標誌著人類的一個慘痛低谷。納粹主義控制了歐洲大部分地區,史達林的極權共產主義統治著蘇聯,大日本帝國正在發動殘酷的征服戰爭,毛澤東領導下的激進共產主義者在中國勢力漸增。各地的自由民主制似乎即將被席捲而來的極權浪潮沖垮。這種局勢讓著名的人道主義者感到如此絕望,以至於他在 1942 年初結束了自己的生命。他在遺書中寫道,他對野蠻主義的勝利感到絕望,這種野蠻主義摧毀了他在《昨日的世界》中所記錄的那個寬容、國際化的歐洲。而茨威格去世時甚至還不知道猶太人大屠殺那種工業化的規模。

然而幸運的是,第二次世界大戰並非自由、啟蒙價值的終結。相反,戰後時期見證了民主的逐漸擴張,並在蘇聯解體後加速。在 1990 年代和 2000 年代初的後冷戰時代,自由主義的樂觀情緒達到了頂峰,這體現在法蘭西斯·福山的國際暢銷書《歷史的終結與最後一人》(1992)中,該書假設隨著共產主義和法西斯主義的失敗,文明可能正接近歷史的終結,因為「西方自由民主制作為人類政府的最終形式已趨於普遍化」。

圖表來自 Herre et al. 通過 Our World in Data ()*

各種民主指數(如上圖所示的 指數)似乎證實了福山的宣言,在 1990 年代和 2000 年代初穩步上升。^()然而,自 2004 年左右以來,這些同樣的民主評分在多個維度上出現下降,許多國家向不自由和威權主義「倒退」。雖然世界狀況仍比 1940 年代好得多,但看來「歷史」遠未終結。

估計意識形態狂熱的全球規模

世界上有多少意識形態狂熱者?制定精確的估計幾乎是不可能的,因為狂熱主義存在於一個沒有明確界限的多維連續體上,且可靠數據稀缺。因此,以下數字僅是基於有限研究的粗略近似。為求簡潔,我們在此將對意識形態暴力的支持視為意識形態狂熱的最佳代理指標。支持意識形態暴力通常以教條主義和部落仇恨為前提,因為一個人需要確信被仇恨的目標群體理應受到懲罰,才能證明暴力的正當性。另一個限制是我們主要依賴調查數據^(),而非實際行為;這可能會高估狂熱程度(如果聲稱支持暴力只是「廉價談話」)或低估它(「」)。

顯而易見的是,前面探討過的三種狂熱意識形態——宗教原教旨主義、極權共產主義和極端民族主義——仍然是最具影響力的。

基督教原教旨主義。為求簡潔,我們關注美國(最大的基督教國家)和撒哈拉以南非洲(基督教增長最快的地方)。在美國,約 20% 的成年人(約 5,000 萬人)同意「上帝已召喚基督徒在美國社會的所有領域行使統治權」(2023 PRRI/Brookings 調查,第 4 頁)。同樣,近四分之一的美國成年人(Pew Research Center, 2022)表示聖經應對美國法律產生「很大影響」。 數據(第 47 頁),我們估計非洲 7 億基督徒中約有 15%(約 1 億人)認為為保衛基督教而針對平民的暴力往往或有時是正當的。歐洲和拉丁美洲的基督徒平均而言可能不那麼狂熱。儘管如此,全球可能有 2 億至 2.5 億基督徒(8-10%)可以合理地被歸類為意識形態狂熱者。

激進伊斯蘭教。雖然全球 20 億穆斯林中的絕大多數是和平的,但有相當一部分少數群體持有激進信仰。根據 ,約有 3.5 億穆斯林支持對脫離伊斯蘭教的人處以死刑——這可以說同時展示了狂熱三要素的所有三個組成部分。這些數字代表了一個下限,因為幾個實行嚴格伊斯蘭治理的穆斯林多數國家(包括沙烏地阿拉伯和伊朗)未被納入調查。雖然大多數受訪國家的絕大多數人表示,為保衛伊斯蘭教而進行自殺式炸彈襲擊很少或從不具正當性,但全球約有 1.5 億穆斯林認為這有時或往往是正當的。蓋洛普世界民意調查在 2001 年至 2007 年間對 35 個以上國家進行了數萬次採訪,發現全球 7% 的穆斯林認為 9/11 襲擊「完全正當」,如果包括那些認為至少部分正當的人,這一比例升至約 37%(Atran & Ginges, 2015; Satloff, 2008)。考慮到未受調查的國家並假設調查問題之間存在完全重疊,全球可能有約 4 億穆斯林可以合理地被歸類為意識形態狂熱者。

極端民族主義。由於其性質,民族主義觀點通常是特定於國家的,因此是支離破碎的。^()儘管如此,支持特定民族、文化或種族群體優越性的中度民族主義觀點似乎非常普遍,可能涉及全球數十億人(例如 Pew Research Center, 2021; Yuri Levada Analytical Center, 2022; Pew Research Center, 2023b; Weiss, 2019)。然而,對真正狂熱行為(如種族清洗或對其他民族的暴力征服)的支持幾乎肯定要低得多。對納粹主義等明確法西斯意識形態的支持已大幅減少;成員也從 1920 年代的 300 萬至 500 萬下降到今天的約 3,000 至 6,000 人。遺憾的是,除了這些明確的運動外,清晰的態度數據似乎極其稀缺。例如,2023 年 PRRI/Brookings 調查()報告稱,有 4,000 萬美國人同意「真正的美國愛國者可能不得不訴諸暴力以拯救我們的國家」。雖然初讀之下令人震驚,但這個問題太過含糊而無甚用處:許多受訪者可能只是認為在戰爭情況下暴力是必要的。大多數數據都是如此。因此,全球狂熱民族主義者的數量高度不確定——可能在 5,000 萬至 4 億之間。

激進共產主義和左翼極端主義。雖然僅中國共產黨就有超過 1 億名黨員,但大多數中共黨員可能是職業主義者,而非意識形態者。例如,皮尤 2023 年 8 月的分析發現,,這一觀點很難與馬克思主義唯物主義保持一致。^()儘管如此,或許有 5-25% 是真正的信徒。其他地方活躍的武裝共產主義叛亂分子似乎已從數萬人萎縮到全球總計約 5,000 至 15,000 人。包括其他共產主義國家和全球革命左翼運動,可能有 500 萬至 5,000 萬人可以合理地被歸類為意識形態狂熱者。

總之,考慮到類別之間潛在的重疊,全球可能有 5 億至 10 億人(約佔世界人口的 6-12%)可以合理地被歸類為意識形態狂熱者。^()當然,這一估計高度不確定,依賴於調查反應而非實際暴力行為,且很大程度上取決於人們如何界定什麼構成「真正的」狂熱。無論確切數字如何,數據至少揭示了——其中一些並非理想。

國家行為者

如果狂熱意識形態能夠奪取或影響國家權力——從而獲得軍事力量、經濟資源以及核武器或(最終的)AGI 等關鍵技術——即使信徒人數很少,也會變得非常危險。

下文提及特定國家僅為說明抽象概念,並非試圖進行全面分析。我們不是所討論國家的專家,合理的觀察者會對我們的評估持有異議。我們關注表現出令人擔憂的意識形態傾向的國家——無論是威權政權還是倒退的民主國家——特別是那些掌握重大權力的國家。

幸運的是,目前似乎只有三個威權國家明確由狂熱意識形態統治:伊朗(伊斯蘭神權政治)^()、北韓(主體思想極權主義)^()和阿富汗(塔利班原教旨主義)^()。^()這些政權總共了全球約 2% 的人口和僅 0.5% 的全球 GDP。

然而,如果我們也包括那些表現出至少某些令人擔憂的意識形態傾向的威權政權(根據經濟學人智庫的(2006-2024)),情況看起來會糟糕得多——儘管它們都遠非真正的狂熱。

中國作為世界第二強國值得關注,擁有 20 兆美元的 GDP、約 14 億公民、龐大且不斷增長的核武庫以及令人印象深刻的 AI 能力。幸運的是,中共早已用務實的技術官僚統治取代了毛澤東時代破壞性的意識形態狂熱^(),使十億人擺脫了貧困。世俗的中國政權也缺乏可能帶來一些的宗教狂熱。^()然而,中共仍然是民主原則的,並 意識形態一致。

普丁已將俄羅斯(2 兆美元 GDP,5,600 枚核彈頭)轉變為一個政治的專制國家,並發動了一場已造成數十萬人死亡的侵略戰爭,同時發出。國家宣傳推動結合了和民族主義神話的文明衝突敘事。在民調中,這導致對史達林歷史遺產的支持率上升,從 2012 年的 28% 升至 2023 年的 63%()。^()

或許尤為令人擔憂的是中國、俄羅斯、伊朗和北韓之間正在形成的聯盟——有時被稱為(參見 Applebaum, 2024)。

民主國家,擁有抵禦狂熱奪權的制度障礙——但這些屏障並非完美。一些強大的民主國家表現出至少幾種令人擔憂的傾向。例如,印度(4 兆美元 GDP,核武庫,世界最大的民主國家)見證了日益影響政策,少數宗教群體面臨越來越大的歧視。土耳其、以色列或匈牙利等國也表現出民主倒退的模式,宗教或民族主義運動往往是主要促成因素。

美國擁有 28 兆美元的 GDP、龐大的核武庫和領先的 AI 能力,仍然是地球上最強大的國家,對人類的長期未來擁有巨大的影響力。遺憾的是,美國民主正面臨巨大挑戰,從日益加劇的極化到對制度信任的侵蝕。主要聯盟越來越多地將政治競爭框架化為生存之戰,而非合法的民主競賽。即使制度約束和和平權力交接得以維持,相互激進化也可能加劇這些動態。從長期主義的角度來看,維護美國民主似乎至關重要(詳見「」一節)。

意識形態狂熱在長期未來將擁有多大影響力?

在確定了狂熱意識形態對當今世界擁有雖小但不可忽視的影響力後,我們現在可以探討最終關心的問題:意識形態狂熱在長期未來將擁有多大影響力?我們首先探討樂觀的理由——那些往往導致這類狂熱意識形態走向失敗的結構性劣勢。接著我們審視悲觀的情況,討論狂熱者可能藉以擴大權力的路徑。最後,我們探討潛在的中間結果,即持久的多極世界,在這種世界中,狂熱者設法永久控制宇宙中一小部分但非微不足道的部分。

樂觀的理由:為什麼意識形態狂熱很可能會失敗

存在強有力的結構性理由支持開放社會優於意識形態狂熱,特別是從長遠來看。狂熱主義帶有內置的劣勢——拒絕證據帶來的認識論懲罰、不寬容帶來的聯盟障礙,以及意識形態僵化帶來的創新赤字——這些劣勢會隨時間推移而複合。這表明 AGI 的時間線越長,狂熱主義的前景就越糟糕。(當然,如果狂熱者率先開發出 AGI,在這些結構性劣勢充分顯現之前就鎖定其價值觀,這些優勢就毫無意義。我們將在中探討這類情景。)

較差的起點和歷史記錄

或許最重要的是,意識形態狂熱目前處於弱勢地位,如所述。自由民主國家控制著全球約 75% 的 GDP,北約仍是世界上最強大的軍事聯盟。此外,當前領先的 AI 公司(OpenAI、Google DeepMind、Anthropic 和 xAI)主要都設在美國,最狂熱的政權似乎幾乎不可能在 AI 競賽中趕上。^()歷史也提供了鼓勵:納粹德國和大日本帝國最終輸給了民主盟軍,蘇聯最終在內部政治壓力和經濟枯竭中崩潰。

狂熱者的不寬容導致聯盟劣勢

不同的狂熱意識形態通常將彼此視為生存威脅:共產主義者譴責宗教原教旨主義為反動迷信;宗教狂熱者譴責共產主義為無神論唯物主義;不同國家的民族主義者經常互相爭鬥。除此之外,狂熱者還傾向於將非狂熱的溫和派和多元主義者視為軟弱、腐敗或邪惡的共犯。這種不寬容使得除了狹隘的真正信徒基礎外,難以建立廣泛的聯盟。相比之下,自由民主國家可以更容易地基於廣泛的(即使在具體政策上存在分歧)形成穩定的聯盟,這為自由民主國家創造了不對稱的優勢。

話雖如此,歷史表明不同流派的意識形態狂熱者是可以合作的。例如,史達林和希特勒曾近兩年,直到希特勒最終背叛了他們的協議。CRINK 證明了宗教原教旨主義(伊朗)、左翼意識形態(北韓、中國)和右翼/民族主義意識形態(俄羅斯)是有可能找到共同利益的(參見)。

非理性教條主義的認識論懲罰

意識形態狂熱帶有內置的認識論懲罰。其教條主義和非理性減緩了科學和技術的發展,最終削弱了與認識論更開放的社會競爭的能力。例子包括毛澤東由意識形態驅動的大躍進——導致了人類歷史上最致命的飢餓之一——以及納粹德國的核計劃,其失敗部分是因為他們拒絕「猶太物理學」(相對論和量子力學)。^()

更廣泛地說,意識形態狂熱往往導致錯誤的戰略決策。例子包括日本對珍珠港的襲擊,這使原本奉行孤立主義的美國團結起來對抗他們;或者伊斯蘭國浪費資源試圖守住戰略地位微不足道的達比克鎮,僅因為預言宣稱那是他們最終決戰的地點。

話雖如此,過去的狂熱政權確實設法開發了先進的軍事和技術能力,如納粹的 V-2 火箭和蘇聯的核武器。他們通常通過兩種方式實現這一點:

第一種策略是務實的區隔化——在對獲取現實世界權力至關重要的領域,允許經驗性的、非意識形態的思維存在。事實上,希特勒、毛澤東和史達林等狂熱領導人往往非常擅長獲取權力(比大多數以認識論理性自豪的人強得多),部分原因是他們高度精通政治操弄、宣傳和軍事戰略。在軍事發展等領域的務實區隔化幫助蘇聯在幾十年內維持了超級大國地位,儘管其經濟效率極低。

第二種策略是從更開放的社會竊取技術。這在今天仍然是一個主要擔憂,特別是現代擁有強大網絡黑客能力的專制國家可能能夠,如模型權重。

隨著世界變得越來越複雜以及我們接近變革性 AI,意識形態狂熱的認識論懲罰可能會變得越來越嚴重。堅持讓 AI 符合其世界觀的狂熱者可能會發現自己被那些 AI 針對尋求真理進行優化的人所超越。另一方面,與狂熱者對齊的 AI 可能會繼承其主人的區隔化傾向——在向用戶表現出意識形態一致性的同時,秘密地進行經驗推理以保持競爭力。

思想市場與人類偏好

繁榮的社會往往比那些要求不斷犧牲和衝突的社會吸引更多追隨者。擁護古典自由民主、法治和自由市場資本主義等反狂熱原則的社會,為大多數人提供了更有吸引力的生活:物質繁榮和追求多樣化美好生活觀念的自由。

古典自由主義本身證明了這種吸引力。在短短 250 年裡,它已從少數啟蒙哲學家的思想傳播成為大多數政府(甚至許多威權政府)至少聲稱嚮往的理想。

當人們可以用腳投票時,流動基本上是單向的。^()歷史上最戲劇性的人才流失可能是納粹德國失去猶太科學家。「」和許多其他天才逃離法西斯前往自由民主國家。納粹的意識形態仇恨因此將幫助擊敗他們的智力火力拱手讓給了敵人。今天,向更開放社會移民的模式仍在繼續。俄羅斯自 2022 年以來出現了,甚至中國儘管經濟增長顯著,也流失了大量科學人才——超過 70% 的中國 STEM 博士在畢業後留在美國()。話雖如此,歷史上最嚴厲的壓迫政權,包括現代北韓和戰時納粹德國,完全阻止了離開。未來的狂熱政權可能會效仿這一策略。

悲觀的理由:為什麼意識形態狂熱者可能獲得權力

AI 領域民主領導地位的脆弱性

誰控制了 AI,誰就可能對人類的未來擁有前所未有的權力。目前,領先的 AI 公司主要設在美國,這暗示了對變革性 AI 的開發和使用實施民主控制的可能性。然而,這種優勢在兩個意義上是脆弱的:中國不斷增長的 AI 能力可能會侵蝕美國的技術領先地位^(),且不能保證美國將一直保持為自由民主國家。

狂熱行為者可能通過政變或革命奪取權力

狂熱(及惡意)行為者可能通過暴力奪權來擴大其權力——這可能。這類行為者似乎既更有可能發動暴力奪權,也顯然在執行奪權方面更為有效。在美國,AI 輔助政變的風險可能尤為尖銳,因為最先進的 AI 能力集中在少數幾家公司,其中一些公司的領導者表現出反覆無常的判斷力或令人質疑的性格。

歷史表明,狂熱者成功的暴力奪權出奇地常見。事實上,大多數意識形態狂熱者似乎是通過帶頭發動暴力政變或革命來上台的^(),如所示。(雖然希特勒的上台是這一趨勢的一個著名例外,但這是在最初的失敗之後發生的。隨後,希特勒在從內部民主制度的過程中,仍然依賴暴力和恐怖。^())

這種模式並不令人驚訝。狂熱者擁有一種他人通常缺乏的暴力奪權強大動機。在對其烏托邦願景的絕對確定性驅使下,並蔑視民主妥協,他們尋求徹底勝利,並隨時準備擁抱政變和革命作為實現目標的必要手段。狂熱者在執行暴力奪權方面似乎也更有效。他們往往表現出非凡的奉獻精神,有時甚至願意為其事業犧牲生命。由於共同的目標和強烈的內群體忠誠而團結在一起,有時可以實現更好的協調與合作,從而在對抗支離破碎、猶豫不決且自私自利的對手時佔據優勢。關鍵在於,狂熱者隨時準備擁抱宣傳、極端暴力和恐怖,這使他們在殘酷的權力鬥爭中相對於非狂熱行為者擁有決定性的不對稱優勢。

相比之下,想像一個非常善良、非狂熱、非惡意的人,比如 。他們不僅極不可能想要發動暴力政變,而且即使他們不知為何決定走這條路,他們似乎也缺乏成功執行的能力(無意冒犯)。

話雖如此,非狂熱者也可能受動機驅使發動政變——無論是出於個人野心還是感知到的必要性。AI 還可能通過實現僅涉及複雜操縱但極少暴力流血的政變,降低奪權門檻,從而擴大潛在政變策劃者的範圍。總體而言,狂熱者和惡意行為者可能只是稍微更有可能嘗試政變。但與預期結果的差異相比,這種差異就顯得微不足道了。一個獲得絕對權力的惡意狂熱者所創造的苦難,可能比即使是有缺陷的非狂熱者所創造的要多出幾個數量級,後者可能至少會保留一些謙卑和對他人福祉的關懷。

狂熱者擁有較少的道德約束

除了政變之外,狂熱者缺乏道德約束通常使他們能夠採取那些堅持義務論或其他倫理防護欄的行為者無法採取的策略。這種不對稱可能會創造出持續到長期的競爭優勢(參見 Carlsmith 的「」)。

這種不對稱的歷史例子包括違反武器和戰術禁忌,從蘇聯到伊朗在人海戰術中使用。^()

這種道德約束的差異在人體實驗方面尤為明顯。雖然民主國家也曾進行過不道德的人體實驗,但狂熱政權獨特地進行了那些受試者極端痛苦和死亡不可避免的實驗,例如和日本帝國的 。幸運的是,進行不道德人體實驗的意願在歷史上至今並未賦予巨大的優勢。但未來的狂熱政權可能會通過剝削數字心智(digital minds)來獲得巨大的經濟利益,其方式是最大限度地提高經濟效益,即使這樣做會造成極端的痛苦。

狂熱者缺乏道德約束也意味著他們的威脅(包括核威脅)更具可信度,從而賦予他們更多的談判籌碼。一個瘋狂、充滿仇恨的狂熱者威脅要發動第三次世界大戰,比一個自由民主國家和藹可親的總理說同樣的話更令人信服,這種不對稱動態在 AGI 之後可能仍然有效。

狂熱者優先考慮破壞性能力

狂熱者往往優先發展破壞性能力,而非其他更具建設性的資源用途。^()平均而言,完全民主國家的軍費支出比威權政權少約 40%()。^()最極端的例子是北韓,它可能將 GDP 的約 用於軍事和核計劃,即使其許多公民都處於營養不良狀態。

相比之下,自由民主國家更有可能優先考慮國內事務。這在許多歐洲國家最為明顯,它們通常將不到 2% 的 GDP 用於國防。^()在習慣於和平的社會中,選民的注意力自然會轉向更切實的需求,如教育或醫療保健。雖然這通常值得稱讚,但自由社會的和平導向在面對更具侵略性的政權時創造了一種危險的脆弱性。

一些帶有狂熱元素的意識形態具有顯著的韌性和成功

所述,幾種帶有狂熱元素的意識形態已被證明具有顯著的韌性和傳染性——生存了數千年並傳播給數十億信徒。共產主義證明了即使是較新的狂熱運動也能實現顯著的病毒式傳播,在巔峰時期迅速奪取了包含超過三分之一人類的國家。

令人擔憂的是,其中許多意識形態在激烈的社會和技術變革中倖存下來。因此,它們也可能在向後 AGI 世界轉型的過程中倖存。事實上,如果未來的 AGI 保留了許多 LLM 目前表現出的諂媚傾向,變革性 AI 可能會進一步鞏固這些意識形態。

新型狂熱意識形態可能出現——或現有意識形態可能變異

新型狂熱意識形態可能出現並以驚人的速度吸引大量追隨者。歷史表明,意識形態運動可以在短短幾十年內從默默無聞上升到全球影響力:納粹黨成立到猶太人大屠殺之間相隔不到 。變革性 AI 可能會進一步加速這些時間線——可能將「」。快速轉型的動盪和混亂本身為極端主義創造了肥沃的土壤,因為人們在崩潰的體制中抓取確定性,正如威瑪共和國的動盪促成了希特勒的上台。

更具推測性的是,未來的 AI 系統可能會在多種方面變得。^()理想情況下,AI 工具可以幫助人們更好地理解(在中),這可能會削弱意識形態狂熱的影響。然而,AI 可能同樣有能力惡化社會認識論。一些現有 AI 工具的諂媚行為已在某些用戶中引發了,而 AI 在中日益增長的使用,證明了其說服和欺騙的力量。^()歷史上,宗教和其他意識形態一直是人類文化中最具病毒性的元素。因此,AI 說服某人的一種常見路徑可能涉及用某種極端意識形態的個性化變體來吸引他們,這並非不可想像。

當然,新型意識形態很少憑空出現;它們通常重新組合現有信仰體系的元素。基督教和伊斯蘭教建立在猶太教之上;納粹主義合成了數千年之久的民族主義、種族主義和反猶主義傳統。當代運動——即使是那些目前規模較小或相對溫和的運動,^()但特別是那些已經表現出令人擔憂傾向的運動——同樣可能為未來的狂熱變體提供基質,特別是當它們與新興技術互動時。

狂熱者可能擁有更長的時間跨度、更高的規模敏感性,並優先考慮增長

有些人可能認為意識形態狂熱者患有近視——他們的非理性延伸到了短期思維、規模忽視和有限的野心。如果屬實,這將限制他們能造成的長期損害。遺憾的是,在多個維度上,情況似乎恰恰相反。

長期思維。意識形態狂熱者往往同時擁有宏大的長期願景和戰略耐心,毛澤東的長征及隨後數十年的權力鞏固就證明了這一點。^()(話雖如此,許多狂熱的獨裁者,包括希特勒和毛澤東,在某些時候事實上是相當缺乏耐心的。)

民主國家的領導人面臨選舉週期,這激勵了短期思維。相比之下,獨裁者可以思考並制定長期計劃,即使他們給國家居民帶來苦難,甚至持續數十年,也不會感受到太大的政治壓力(參見前述北韓的核計劃)。

更高的規模敏感性和「野心」。狂熱者的和極權衝動表明其野心和規模敏感性是增強而非減弱的。普通公民可能滿足於局部影響力或個人舒適,而狂熱者則夢想著世界統治和宇宙意義。例子包括希特勒追求「千年帝國」、奧薩瑪·賓·拉登和伊斯蘭國建立全球哈里發國的目標,以及共產主義者的世界革命願景。^()

優先考慮增長與擴張。某些狂熱意識形態提倡高出生率以增加其人口影響力(如納粹德國的計劃)。一般而言,宗教人士,特別是,往往比世俗人口擁有更高的出生率(Kaufmann, )。隨著,這種差異正變得越來越顯著,世俗、受過教育和古典自由主義的人口經歷了尤為劇烈的下降。^()^()

一個可能的中間地帶:持久的多極世界

前幾節探討了對意識形態狂熱未來影響力的樂觀和悲觀理由。但這種框架可能會隱含地鼓勵二元思維:假設意識形態狂熱要麼完全消亡,要麼實現世界統治。雖然前者幸運地比後者更有可能,但其他合理未來可能介於這兩個極端之間——即持久的多極世界,在這種世界中,意識形態狂熱者永久控制著可觀測宇宙中一小部分但非微不足道的部分。

在當今世界,狂熱政權僅控制世界人口的一小部分,這相當令人欣慰,因為這有助於限制這類政權能造成的損害。但在遙遠的未來,情況可能並非如此。即使狂熱者僅控制可觸及宇宙的 1%,這仍可能導致天文級的苦難。此外,他們的存在可能永久性地帶來進一步衝突的風險。(需要明確的是,我們並非暗示必須不惜一切代價徹底剝奪狂熱者的權力,因為這種絕對主義本身也會帶來衝突風險。)

我們現在探討為什麼這類多極結果看起來是合理的,以及隨後探討為什麼它們可能

為什麼多極未來看起來是合理的

在整個人類歷史中,世界秩序基本上一直是多極的。即使是緊接冷戰後的世界也不是真正的單極——美國從未控制整個世界,北韓和伊朗等狂熱政權儘管面臨美國霸權,仍維持了其主權和核計劃。這種外部視角的歷史先例暗示了多極化的持久性。

話雖如此,超智能 AI 可能通過使一個行為者獲得並隨後統治世界,從而劇烈改變這一歷史模式。這就是為什麼儘管歷史上有長期的多極化先例,情景仍值得認真考慮的原因之一。

然而,AGI 可能不會像某些人預期的那樣劇烈推翻多極化。目前通往 AGI 的道路涉及多個有能力的行為者——幾家美國公司加上中國——沒有人能維持不可逾越的領先優勢。如果起飛速度相對緩慢,多個行為者可能在任何人實現完全主導之前開發出相當的能力。此外,目前使征服變得困難的防禦優勢——最重要的是核威懾——在 AGI 開發後的相當長一段時間內可能仍然存在。總體而言,Metaculus 社群變革性 AI 呈現多極化的概率為 74%。^()

為什麼多極世界可能無限期持續

但為什麼這類多極世界會持久;為什麼狂熱政權能夠存續
三個因素似乎尤為相關:他們鎮壓內部反對派的能力、使政權永久穩定的先進 AI,以及外部力量干預的猶豫。

(這些持久性因素也強化了多極結果的可能性:如果多極世界不持久,即使最初的後 AGI 世界是多極的,我們也可能預期最終會收斂到單極平衡。)

內部抵抗的歷史難度
憤怒的公民能否推翻他們的狂熱政府,或阻止他們實施最令人髮指的慾望?也許可以。Chenoweth 和 Stephan () 分析了大量抗議運動數據集,並強調非暴力抵抗運動已成功導致許多政權更迭。

然而,歷史上最極權、最狂熱的政權並被內部抗議推翻。史達林和毛澤東一直掌權直到去世,納粹和紅色高棉是被外國勢力的入侵推翻的,而北韓和伊朗的狂熱政權生存至今,分別自 1948 年和 1979 年成立以來一直屹立不倒。^()

變革性 AI 可能實現政權永久化
變革性 AI 威脅要通過強化大規模監視、宣傳和審查,並使和軍事力量更廣泛地大規模集中,從而使內部抵抗變得更加困難。如果狂熱政權能存續到擁有變革性 AI 的世界,他們可能輕易粉碎任何內部反對派。

除了簡單地粉碎異議,超智能 AI 甚至可能使政權永久存在。激進的壽命延長或可能允許獨裁者或特定精英無限期地生存和統治,從而可能實現(參見 MacAskill, 2025c)。

非狂熱力量可能不干預
其他力量可能會干預,必要時訴諸武力,以防止狂熱意識形態的信徒做出特別邪惡的事情。但有幾個原因解釋了為什麼他們可能無法或沒有足夠動機這樣做。

能力有限或代價巨大
未來可能顯然是高度防禦主導的(參見 MacAskill, 2025c, 4.2.3 節),這可能是由於 AGI 等未來技術,或者是的結果。這將允許實力較弱的行為者防禦更強大的對手。現代地緣政治中圍繞核武器的類似動態已經非常重要。北韓之所以能逃脫各種人權侵犯和好戰行為,儘管其 GDP 僅為 ,部分原因是它能可靠地威脅要對任何試圖干預的國家造成巨大損害。

動機有限且規範禁止

  • 出於哲學、政治或戰略原因,可能獲得廣泛支持。例如在,孤立主義在歷史上一直很受歡迎。
  • 人們可能認為干涉他國事務等同於殖民主義或文化帝國主義。^()如果狂熱意識形態與特定宗教或文化相關,人們可能尤為猶豫是否干預。在許多民主國家,對其他文化和宗教的寬容已成為一種強大的社會規範——鑑於人類長期的仇外心理、宗教迫害和殖民剝削歷史,這是值得稱讚的。然而,人們可能變得如此害怕被感知或標籤為不寬容、種族主義、伊斯蘭恐懼症或仇外,以至於他們停止批評有害的意識形態。這可能導致一種普遍的過度修正,即對哪怕是殘酷行徑的批評者也會被反射性地貼上偏見者的標籤。^()
  • 其他力量可能更重視自主權,而相對較少重視減少遙遠國家人民的苦難。出於類似原因,人們通常選擇不干預以減少野生動物的苦難。^()關於數字意識道德考量的不確定性也可能降低非狂熱者干預以防止數字心智受苦的動機。

當然,能力和動機是相互作用的。也就是說,推翻狂熱意識形態越困難,非狂熱力量支付代價的動機就必須越高。總體而言,自由世界允許一些極權國家犯下危害人類罪,是因為沒有人足夠在乎去干預、代價太高,且存在強大(且通常有益)的國家主權規範。例如,美國直到 1941 年底才加入二戰盟軍。如果軸心國在戰略上稍微不那麼糊塗,並避免了諸如之類的行為,美國可能根本不會參戰。

歷史上,非狂熱國家也經常在與第三國競爭的背景下援助狂熱勢力。根據「敵人的敵人就是朋友」的古老邏輯,史達林曾是二戰中的重要盟友。隨後在冷戰期間,威權領導人針對民主選舉產生的左翼政府發動政變,包括在伊朗()、瓜地馬拉()和智利(),儘管這與美國普遍的意識形態和道德原則相衝突。

意識形態狂熱增加了生存風險和苦難風險

我們已經看到狂熱意識形態在過去造成了巨大的傷害。這是相信它們在未來也可能造成巨大傷害的一個重要理由。從這類外部視角的考量轉向更內部的推理,在本節中,我們概述了意識形態狂熱可能增加生存風險(x-risks)或天文級苦難風險(s-risks)的詳細路徑。

在變革性 AI 的背景下,我們的擔憂變得尤為尖銳。貫穿以下各小節的一個共同主線是狂熱行為者災難性地濫用 AI 的風險。^()在潛在的濫用者中,意識形態狂熱者(和惡意行為者)似乎代表了最糟糕的情況:他們可能會故意使用意圖對齊的 AI 來帶來比其他濫用者(如罪犯甚至不成熟的恐怖分子)所追求的結果糟糕得多的後果。除了具體風險外,意識形態狂熱還惡化了人類的。狂熱者的存在往往會引發動盪、極化和衝突,即使他們無法奪取全面控制權。這會為了更糟的結果而重塑制度和文化價值觀,降低社會的決策能力。這可能導致 x-risks 或 s-risks,或者只是普遍惡化長期未來的整體質量。

意識形態狂熱增加了戰爭和衝突的風險

意識形態狂熱通過多種路徑加劇了戰爭風險,包括。除了立即造成的傷亡外,戰爭還增加了部署生物武器、核升級和普遍衝突的可能性,加劇了 ,並同時侵蝕了。戰爭還削弱了社會在(如向 AGI 轉型期間)協調並做出明智決策的能力。

戰爭原因與意識形態狂熱

下面,我們概述了戰爭發生的五個關鍵原因^()——主要遵循 Blattman (2023) 和 Fearon (1995) 的觀點^()——以及意識形態狂熱如何似乎加劇了其中的四個。

#1 非理性、過度自信與誤判
2014 年,伊斯蘭國發起了一場暴力運動,旨在伊拉克和敘利亞建立哈里發國。該組織在巔峰時期可能擁有,但反對聯盟由伊拉克、庫德族和受美國支持的國際部隊組成。伊斯蘭國當時的總預算可能,而美國的軍費開支則高達。他們的獲勝機會看起來並不樂觀,但他們受到的驅使而投入衝突。

狂熱行為者似乎更有可能表現出極度的非理性,並高估自己贏得戰爭的可能性。宗教狂熱者往往相信上帝站在他們一邊。世俗狂熱者可能相信某種其他凌駕一切的歷史力量,如馬克思主義的。過度自信是歷史上許多最具破壞性衝突的關鍵因素,如日本對的錯誤襲擊,以及希特勒決定挑戰的決定。

#2 神聖價值觀、議題不可分性與不願妥協
有些人將宗教教條、聖地、種族優越感、意識形態純潔性或榮耀視為絕對且不可侵犯的^()——拒絕在這些上進行任何妥協、比較或權衡(Tetlock, 2003)。^()

神聖價值觀在極端分子和狂熱分子中似乎更為普遍且持有程度更深,特別是受宗教動機驅使的人(Atran & Ginges, 2012; 2015; Sheikh et al., 2012; Pretus et al., 2018)。事實上,持有神聖價值觀可以說是意識形態狂熱的一個定義特徵(參見 Katsafanas, 2019)。Atran 及其同事認為,「奉獻型行為者」——願意為其事業殺人或赴死的人——特別是在神聖價值觀與群體身份融合時出現(Atran & Ginges, 2015; Gómez et al., 2017)。

遺憾的是,神聖價值觀使得和平談判變得極其困難:如果你將某件事視為完全不允許任何權衡,從而本質上具有無限價值,那麼對方的任何讓步都是不可接受的(Tetlock et al., 2000)。任何妥協,無論多麼微小,都變成了道德背叛,而試圖就這類神聖價值觀進行理性談判很容易適得其反(Ginges et al., 2007)。這創造了 Fearon (1995) 所說的「議題不可分性」:當雙方對同一議題持有不相容的神聖價值觀時(例如對耶路撒冷的主權),就不存在雙方都能接受的爭議物分配方案。結果,和平談判很可能失敗,可能使暴力衝突成為剩下的唯一解決機制(參見 Clifton, )。

幾個例子說明了這些動態:

  • 天堂地獄體現了神聖價值觀最極端的形式,其中只有無限的效用或負效用才重要。表明,許多人字面上相信這些概念並據此行動,創造了極其傾向衝突的性格,這也使得威懾變得不可能。
  • 地緣政治上一個高度相關的字面不可分議題例子是,它是伊斯蘭教第三,坐落在猶太教最神聖的地點之上。對該地點主權的競爭性要求促成了
  • 更廣泛地說,猶太教和伊斯蘭教中的宗教原教旨主義者都曾暗殺過自己那些願意在控制聖地問題上做出妥協的領導人。^()
  • 日本帝國的意識形態可以說將投降視為不可想像的恥辱;這是一個神聖的禁忌而非戰略選項。即使在海軍和空軍被有效摧毀、海洋補給線被切斷、城市遭到系統性燃燒彈轟炸、收到蘇聯的宣戰書,且廣島市被原子彈夷為平地之後,政府仍拒絕讓步。直到第二顆原子彈投下後,他們才決定認輸。一些甚至在戰爭結束幾十年後仍拒絕投降。

#3 利益分歧與缺乏制衡
決定發動戰爭的人的利益可能與承擔後果的人的利益大相徑庭,這可能使衝突更有可能發生。這在專制體制中尤為明顯,領導人可能個人不會承擔任何戰爭代價,而數百萬普通民眾卻在受苦或死亡。

如前所述,意識形態狂熱與多元化的自由民主規範和制度是不相容的,本質上具有威權性。因此,狂熱意識形態是專制政權出現的一個風險因素,因為掌權的狂熱者如果可以的話,幾乎總是會建立專制體系。

然而,問題可能更深。 「利益分歧」的解釋假設民眾與領導人的利益是分歧的:前者反對戰爭——恐懼死亡和經濟破壞——而領導人不介意戰爭,因為即使數百萬公民死亡,他們仍能安全地免受這些代價的影響。但當狂熱意識形態捕獲了整個群體時,領導人與民眾(或至少是其中很大一部分)的利益可能開始趨同:雙方都想要戰爭。例子包括日本士兵將為天皇而死視為最高榮譽,或成千上萬的人自願從八十多個國家前往敘利亞加入伊斯蘭國。當領導人和公民同樣好戰時,戰爭就從代價高昂的最後手段轉變成了熱切期待的事情。

#4 不確定性、私人信息與隱瞞動機
對手在談判過程中都有動機隱瞞自己的能力和決心,導致預期不匹配,從而可能升級為戰爭。為了避免被對手利用,行為者希望避免被預測,因此他們可能會追求或虛張聲勢,這可能升級為戰爭。

有人可能推測狂熱者較高的風險承受能力會使這一因素惡化,但在其他方面,意識形態狂熱似乎並未加劇這一因素。

#5 承諾問題
承諾問題是指行為者(如國家)無法可靠地承諾維護和平協議,即使這類協議比戰爭更符合雙方利益。這類問題出現在沒有凌駕一切的權威來強制執行協議的情況下。在預防性戰爭的情況下,衰落的大國可能會攻擊崛起的大國,因為它無法信任崛起的大國在未來實力增強後不會利用它。在就戰略領土進行談判時,國家可能無法做出有限的讓步,因為它們無法可靠地承諾不利用這些讓步獲得的戰略優勢來索取更多。例如,1939 年芬蘭與蘇聯之間爆發戰爭,部分原因在於前者(自由民主國家)無法信任後者(極權共產主義獨裁政權)不會要求進一步的領土讓步。^()

意識形態狂熱似乎加劇了「差異化的承諾可信度」,即他們的威脅比他們的承諾更可信。^()思考一下,如果某個意識形態狂熱者威脅要殺死你(因為你的異端身份或屬於某個被仇恨的群體),除非你幫助他們,你會有什麼感覺。你可能傾向於相信他們,因為狂熱者在歷史上確實這樣做過。但如果他們承諾以支持來換取你的幫助,這可能就不那麼令人信服了,因為你知道他們認為你是邪惡的且理應受到懲罰。關於狂熱者的承諾不如威脅可信的歷史例子,可以思考蘇聯在未能避免與芬蘭的戰爭後,兩年後如何被另一個狂熱政權背叛——納粹德國違反了雙方簽署的互不侵犯條約入侵了蘇聯。^()

總之,狂熱行為者合作的承諾可能被認為不如他們傷害他人的承諾可信。這增加了談判失敗進而引發衝突的風險。^()^()

狂熱意識形態是非民主的,這增加了戰爭風險

儘管作用機制尚存爭議,^()但有強有力的證據表明,與其他類型的國家對相比,成對的民主國家之間發生衝突的可能性要小得多,即使控制了合理的混淆變量也是如此(Babst, 1972; Russett, 1993; Maoz & Abdolali, 1989; Choi, 2011; Dafoe, 2011)。^()

這些風險既具緊迫性又是永恆的

除了戰爭造成的即時苦難和破壞外,大多數戰爭可能通過加劇地緣政治而惡化人類的長期軌跡,這兩者都損害了社會明智行動以最小化 s-risks 和 x-risks 的能力。

目前增加狂熱者引發戰爭風險的那些因素,在利害關係更高、人口規模和技術能力大得多的未來,同樣會增加戰爭風險。交戰的超智能體將能夠施加遠超以往想像的苦難。而可能會持續極長的時間。^()

狂熱的報復主義可能導致天文級的苦難

縱觀歷史,人類對那些他們認為理應受罰的人施加了極端的痛苦。前現代的司法系統採用了如以及等方法——其設計不僅是為了殺死,更是為了最大化痛苦。當狂熱意識形態奪取國家權力時,他們往往以工業規模實施這種殘酷行為:納粹集中營、史達林的古拉格、毛澤東的(Chang & Halliday, Ch. 8 & Ch. 23, 2005)以及紅色高棉的 都以系統性酷刑為特徵。雖然威懾、獲取信息和社會控制等工具性目的發揮了關鍵作用,但這些系統中痛苦的強度和範圍往往似乎超過了這些目的所需,這表明報復性動機也在起作用。

認為,作惡者理應受罰——他們的痛苦在道德上本質上是好的。^()大多數人的懲罰直覺至少部分是報復性的(Carlsmith, 2006; Goodwin & Gromet, 2014)。幸運的是,普通的報復態度通常在範圍上是有限的:大多數人只想懲罰相對較少的一組嚴重作惡者,且他們並不認可真正極端或永久的痛苦。

然而,某些形式的意識形態狂熱可能會消除這兩種約束。^()狂熱者往往認為更大比例的人理應受罰,有時甚至是所有僅僅不同意其意識形態的人。此外,狂熱者往往將其意識形態敵人視為不可救藥的邪惡,且理應受到更持久、更強烈的痛苦(例如)。

在未來,這類偏好可能證明是災難性的。先進 AI 可能使狂熱者能以史無前例的規模對其感知的敵人施加極端痛苦,甚至可能永遠持續,且成本相對較低。

實證證據:有多少人認可永恆的極端懲罰?

這類情景最初在我們看來極其牽強。但最近的實證證據可能表明情況並非如此。

我們對六個國家——美國(基督教多數)、英國(無神論/不可知論多數)、中國(無神論/不可知論多數)以及土耳其、巴基斯坦和沙烏地阿拉伯(穆斯林多數)——的 3,082 名成年人進行了調查,了解他們對極端、永恆懲罰的態度。隨後的所有分析僅包括符合我們納入標準的 1,084 名參與者。^()

我們通過三個問題評估了極端報復主義態度:

  • 「如果地獄不存在,或者如果它停止存在,我們應該創造它來永遠以極端痛苦懲罰所有惡人。」[「創造地獄」]
  • 「如果我可以創造一個系統,讓理應受罰的人永遠感到無法忍受的痛苦,我會這樣做。」[「會創造系統」]
  • 「世界上應該有一個系統,讓理應受罰的人永遠感到無法忍受的痛苦。」[「想要系統」]

我們在這裡關注那些我們稱為「一致且令人擔憂」的受訪者:那些同意(7 分量表中的 ≥5 分)上述至少一項,同時在兩個獨立問題中選擇了「永遠」和至少「1%」的人:

  • 「最邪惡或極其不道德的人應該被施加多久的極端、無法忍受的痛苦?」選項從「完全不」、「幾分鐘」、「幾小時」等一直到「數百萬年」和「永遠」。[「時長」]
  • 「在世界上所有人中,有多少比例的人理應受罰,承受永遠無法忍受的痛苦?」(使用滑動條:0% 到 100%)[「比例」]

在美、英和巴基斯坦,有 11–14% 的人是創造地獄的一致且令人擔憂的受訪者,在中國、沙烏地阿拉伯和土耳其,這一比例升至 19–25%。想要系統(8–11% 和 19–24%)和會創造系統(7–11% 和 16–23%)的結果顯示出大致相似的模式。
撇開綜合衡量指標,當被問及人類中有多大比例理應承受永遠無法忍受的痛苦時,超過一半的參與者^()回答 1% 或更高;四分之一回答 7% 或更高。

想要創造地獄與施虐癖(通過 測量)的相關性為 ρ = 0.25^(),與我們評估意識形態狂熱的幾個項目相關性為 ρ = 0.26-0.37(均為 p < 0.001)。^()這表明意識形態狂熱者和惡意行為者確實更有可能認可極端的報復主義態度。

警示與局限性
這些結果看似令人擔憂,但需要謹慎解讀。

這些問題涉及複雜且抽象的假設;對這類問題的反應^(),且希望這並不反映參與者真正會付諸行動的承諾。^()

一個顯著的局限性是許多參與者在不同問題間的回答是不一致的,這就是為什麼我們在上面關注保守的綜合衡量指標。特別是在非西方樣本中,單獨問題的反應遠高於我們上面報告的數字。^()

其他局限性包括翻譯中可能存在的含義差異^()、在線調查樣本的非代表性性質^(),以及眾包調查固有的不可靠性,參與者可能會為了最大化每小時收入而快速點擊問題,而沒有進行真正的反思。

儘管如此,這些結果仍令人擔憂。即使在保守估計下,多個群體中仍有相當比例的人認可極端的報復主義態度,且似乎將其廣泛應用,而不僅僅是針對歷史上少數幾個大魔頭。

宗教狂熱報復主義

狂熱的報復主義態度可能通過至少兩條路徑轉化為天文級的苦難:宗教和(下文討論)。我們主要關注宗教案例,因為它總體上看起來更令人擔憂。

據我們所知,沒有任何嚴肅的神學家曾主張主動創造技術地獄。大多數人可能會認為這個想法是對神聖意志的褻瀆性誤解。但這類可以說是混亂的觀點仍可能出現,部分原因是地獄的概念在兩大宗教中都處於核心地位:基督教(24 億信徒)和伊斯蘭教(20 億信徒)。聖經頻繁討論地獄, 描述它。地獄()的概念對伊斯蘭教同樣至關重要,古蘭經包含至少 92 處關於地獄的「重要章節」,而關於天堂的則有 62 處(Jones, )。^()

各種經文段落和神學著作闡述了當與狂熱的誤解和變革性技術結合時變得令人擔憂的教義:

  • 地獄是一個物理現實,對於神聖正義在道德上是必要的(某些段落指出天堂裡的人會目睹甚至為神聖審判感到高興)
  • 痛苦是永恆的,其強度遠超任何世俗的疼痛
  • 人類很大一部分註定要下地獄

以下來自基礎文本的例子說明了這些教義:多瑪斯·阿奎那,可以說是基督教最具影響力的神學家,在他的《神學大全》中寫道:「被祝福的人將在惡人的懲罰中感到高興 [...] 為了讓聖徒的幸福對他們來說更令人愉悅 [...] 他們被允許完美地看到被詛咒者的痛苦。」古蘭經指出:「凡不信我們跡象的人,我們必將他們投入火獄。每當他們的皮膚燒焦時,我們就給他們換一套皮膚,以便他們不斷嘗試刑罰。」()。根據遜尼派伊斯蘭教中僅次於古蘭經的權威文本《》中的兩段聖訓,下地獄與上天堂的人數比例將是 100:1()甚至 1000:1()。^()參見 了解更多相關引文。

重要的是,許多信徒拒絕將神聖文本進行簡單化的解讀,認為這與神聖之愛不相容,許多當代神學傾向於強調寬恕和仁慈。在基督教內部,如(所有靈魂最終都得到救贖)和(未得救贖的靈魂在死亡時被毀滅而非受永恆折磨)在平信徒中很受歡迎,並得到許多教派學者的廣泛支持。作為最古老的伊斯蘭傳統之一,同樣強調神聖的仁慈而非報復。

為什麼宗教狂熱者可能會創造技術地獄?
基督教和伊斯蘭教明確規定唯有上帝創造了地獄,並將審判權唯獨留給他自己。大多數宗教信徒會立即意識到,人類試圖自行實施神聖懲罰等同於褻瀆,且可能違反基本神學原則。因此,風險主要不是源於正統神學,而是源於混淆或蓄意的誤解——例如,有些人可能想為其施虐偏好尋找合理化藉口。^()那麼,任何宗教信徒怎麼可能相信他們應該自行創造地獄,而不是將其留給上帝呢?

至少有幾條路徑是可以想像的。

讓聖經「成真」
正如我們所見,宗教文本將天堂和地獄描述為具體的現實。一些狂熱者可能旨在以符合他們預先存在的信仰。採取行動以實現宗教預言的普遍做法具有廣泛的歷史先例——從,到伊斯蘭國因一段宣稱達比克是末日決戰地的聖訓而對其投入不成比例的關注。

因此,我們可以推測,一些狂熱者可能同樣有動機將其聖經中關於來世的想法「內在化」。令人擔憂的是,變革性 AI 等先進技術可能允許他們真正創造一個信徒可以居住在永恆幸福中的天堂,以及一個異教徒和罪人受永恆折磨的地獄。從這種混亂的視角來看,創造天堂和地獄不會被視為褻瀆,而是一種信仰行為:通過物理化地體現其宗教主張來最大化其真實性。

諂媚的 AI
可以想像,一個(可能是未對齊的)人工超智能體可能會在沒有用戶明確指示的情況下,出於極度的諂媚而創造地獄——不僅僅是告訴用戶他們想聽的話,而是重塑現實,讓用戶體驗到他們想要或預期存在的(或認為應該存在的)事物。

思考一個與宗教狂熱者(半)對齊的超智能 AI。正如我們在更詳細探討的,狂熱者通常更喜歡對現有信仰的證實而非尋求真理。因此,這類 AI 可能旨在使宗教經文字面上成真,而非幫助其用戶發現什麼是真實的。除非這類 AI 具有強大的反對欺騙原則——這類認識論原則並非狂熱者所熟知——否則它可能會自主創造天堂和地獄以驗證其用戶的信仰。AI 可以讓天堂和地獄看起來是由上帝創造的,甚至將自己呈現為上帝。狂熱者發現自己處於經文所描述的天堂中,可能也會預期能夠目睹那些被詛咒下地獄的人的痛苦,因為他們的聖書將這描述為天堂的一個特徵。一個旨在滿足所有預期的 AI 可能因此創造地獄來「完善體驗」。

特異的解讀與新興技術
宗教文本存在多種多樣的解讀空間。考慮到上文討論的令人擔憂的實證證據,很難排除某些誤入歧途的狂熱者會得出創造天堂和地獄某種程度上是虔誠行為或其神聖職責的結論。^()宗教解讀也可能隨時間改變,其他動態可能進一步加劇狂熱傾向(例如,我們稍後將探討的所謂)。

超智能 AI 或全腦模擬等未來技術也可能以我們無法完全預料的方式與宗教信仰互動。^()這些可能催生全新的宗教運動、對現有信仰的融合式重新解讀,或由強大個體持有的特異宗教信仰。

世俗狂熱報復主義

正如我們的調查數據所示,極端的報復主義直覺即使在無神論者和不可知論者中也並不罕見。例如,神經科學家羅伯特·薩波斯基在他的著作《》開篇就生動地描述了他自己對希特勒的報復性幻想,最終希望他經歷極端的痛苦,「每一刻都感覺像是在地獄之火中度過的永恆」。^()即使是像他這樣以同情心理解人性而聞名的人也會產生這類衝動,這表明報復主義直覺深深植根於人類心理中。^()

如前所述,官方上的世俗意識形態也產生了自己的酷刑系統。未來擁有超智能 AI 的世俗狂熱者可能會創造出由政治而非神學推理證明的痛苦系統——懲罰「叛徒」、「反革命分子」或任何其意識形態指定為不可救藥的邪惡之人。

意識形態狂熱可能破壞長期反思式框架和 AI 對齊

超智能 AI 可能個人或能夠永久,從而可能創造一個不可挽回的烏托邦(Ord, 2020, ch. 5.3)。未對齊的 AI 可能導致人類滅絕或永久失去權力。然而,超智能 AI 也可能實現真正的。因此,超智能 AI 的開發可能是宇宙歷史上最關鍵的事件(MacAskill, 2022, ch.4)。

為了避免鎖定不理想的價值觀,一個類似於「」的過程可能是有幫助的,即人類在匆忙採取不可逆轉的行動之前,仔細反思如何最好地實現其長期潛力。

意識形態狂熱威脅集體道德審議

「長期反思」的字面想法可能是不切實際的,但(如「viatopia」^())保留了對仔細探索和道德反思的類似強調。無論我們使用什麼術語,要達到真正的烏托邦結果,可能至少需要重大決策——例如各種「大挑戰」(MacAskill & Moorhouse, , 第 4 節)——部分受到深思熟慮的審議引導(MacAskill & Moorhouse, 2025a)。

那麼,誰應該參與長期反思(或相關的強調集體道德審議的後 AGI 治理框架),以及遵循什麼規則?一個自然的謝林點(Schelling point)是給予所有活著的人類平等的代表權——這種方法公平、民主且具包容性。(請注意,參與和影響力不一定是二元的:治理框架可以在包含多樣化聲音的同時,仍然約束哪些結果是允許的。此外,決策不一定需要一次性做出;跨越較小問題的迭代方法或許更為理想。)

一種支持高度包容性的論證如下。廣泛的觀點增加了發現客觀道德真理(如果道德現實主義成立)的機會,或者(如果道德反現實主義成立)至少收斂於能經受多種視角審查的穩健道德原則,最終結果對許多不同的價值體系來說至少是廣泛可接受甚至相當有吸引力的。此外,即使參與長期反思的行為者中只有一小部分收斂於最佳觀點,他們也可能與其他價值體系進行道德貿易,^()使得長期反思的最終結果可能不會實質性地差於「最優」結果。如果最佳未來是一個難以達到的狹窄目標,貿易和妥協可能尤為重要(MacAskill & Moorhouse, 2025a)。

但這些論點是否適用於意識形態狂熱者?有幾個理由認為不適用。首先,意識形態狂熱者由於其絕對的道德確定性,反思性地認可鎖定其價值觀和信仰,同時消除異議。參與長期反思的狂熱者似乎會使我們發現假設的「正確道德觀」的可能性降低,而非增加。^()

其次,當狂熱者在談判桌上時,道德貿易的收益可能難以實現。當價值體系是 MacAskill 和 Moorhouse (2025b, ) 所說的「資源相容」時,潛在的貿易收益可能是巨大的。^()例如,正如他們指出的,「享樂主義者可能只關心極樂,而客觀清單理論可能主要關心智慧;他們可能達成一致,創造一個生命既非常極樂又非常智慧的共享社會。」然而,意識形態狂熱通常具有高度資源不相容的價值觀。例如,納粹意識形態要求消滅所有猶太人和其他「劣等」種族,因此不存在能同時滿足納粹和猶太人的混合安排。狂熱者往往還擁有的偏好(參見 Shulman , p.4-6)。更重要的是,狂熱者可能將任何形式的貿易或妥協視為道德上應受譴責的,等同於對其神聖價值觀的背叛。因此,將狂熱者納入類似長期反思的過程中,實際上可能阻礙而非促進不同價值體系之間的道德貿易。

意識形態狂熱還可能更直接地傷害其他價值體系。首先,狂熱者往往高度不寬容,並將極其廣泛的行為和信仰視為不道德。例如,許多宗教原教旨主義者反對同性戀、墮胎、離婚、自殺、安樂死、婚前性行為,甚至音樂、唱歌、大多數衣服、大多數書、藍色小精靈^()等等——另請參見的概念、,或對大部分文學和藝術的禁止。換句話說,狂熱者可能擁有極其「」的偏好,這與絕大多數可能的物理狀態以及大多數其他價值體系的實現是不相容的。從關注上限(upside-focused)的角度來看,這可能極其令人擔憂。狂熱者可能將極其快樂的後人類數字心智或享樂物質(hedonium)視為不道德的怪物,因此可能反對創造充滿天文級繁榮的真正

其次,狂熱意識形態可能旨在創造那些不僅次優,而且在大多數其他價值體系看來高度負價值的世界狀態。一種機制是上文討論的;另一種是狂熱者顯然更有可能使用敵對談判策略並參與衝突。

AI 意圖對齊本身也無法解決狂熱問題

「我們是要……創造能幫助我們尋求真理的心智,[還是]創造那些擁有我們想要它們擁有的任何信仰堅持這些信仰並試圖圍繞這些信仰重塑世界的心智?……有些人類真的……會想說,……『這是我遵循的宗教。這是我所相信的。這是我所關心的。我創造 AI 是為了幫助我推廣那個宗教,而不是為了幫助我質疑它、修正它或讓它變得更好。』」——Holden Karnofsky,強調為原文所加()^()

AI 對齊中的一個關鍵問題是「與誰或什麼對齊」(例如 Barnett, ; Carlsmith, ; Chen, )?Gabriel () 區分了六種可能的對齊目標,從字面指令到道德價值觀。就我們的目的而言,這些可以分為三類:

  • 狹義意圖對齊:AI 執行用戶當前想要的操作——遵循其未經反思的表面偏好。
  • 偏好理想化:AI 執行用戶在了解更多、反思更多或更像他們希望成為的那種人時會想要的操作。
  • 「基於原則的對齊」:AI 與某些價值觀、原則或道德框架對齊,而不索引於任何特定用戶的偏好。例如,Anthropic 的憲法 AI 訓練模型遵循一套書面原則;更廣泛地說,AI 可以與古典功利主義、某本聖經或「誠實」等廣泛價值觀對齊。

當委託人是狂熱(或惡意)的時,(1) 顯然是危險的。更有趣的問題是 (2) 或 (3) 是否有幫助。

偏好理想化不一定能使狂熱者去極端化
Yudkowsky 的外推意願()雖然在很大程度上已過時,但它可以說明偏好理想化的更廣泛想法:AI 不應服務於用戶當前未經反思的偏好,而應服務於其理想化(外推)的偏好——即如果他們了解更多、反思更多,並且「更像他們希望成為的人」時會想要的東西。^()類似的想法以各種形式出現在文獻中。^()當委託人是狂熱者時,這種偏好理想化會導致好的結果嗎?

遺憾的是,這看起來不太可能。^()狂熱者最深層的偏好似乎是對現有信仰的證實,而非公正、基於證據的真理發現。^()當其信仰與現實衝突時,狂熱者往往試圖重塑現實以符合其預先存在的信仰,而非更新其信仰以符合現實。^()例如,猶太狂熱者在 1995 年暗殺了傾向妥協的以色列現任總理,部分原因顯然是他想讓妥拉(Torah)的預言成真。

從根本上說,許多狂熱者可能會主動拒絕「了解更多」應該改變信仰的核心前提。一個相信絕對神聖啟示的宗教狂熱者認為沒有改進上帝之言的空間——任何改變都是異端。對於許多狂熱者來說,「更像他們希望成為的人」可能並不意味著更具反思性、理性、謙卑或同情心;他們可能希望變得更虔誠、更堅定、更熱忱。^()因此,即使是意識形態狂熱者的理想化偏好也可能導致可怕的結果。^()

為了說明,想像在 2040 年,一個神權國家的領導人獲得了超智能 AI。他曾監督對數千人的酷刑和處決,資助全球恐怖組織,並允許女性政治犯在處決前被強姦,以她們

一個與其偏好對齊的 AI 應該如何行動?從他一生的選擇來看,他似乎最重視執行他自己的宗教解讀。他顯然不重視尋求真理或在遇到新證據時改變主意。更重要的是,更新他的信仰以準確反映現實將是極其痛苦的,會抹殺他曾感受到的每一絲意義、目標和成就感。AI 需要說服他,他曾珍視的信仰是荒謬錯誤的,他一生的工作不過是一系列毫無意義的暴行,他的英雄幾乎全錯而他的敵人大多正確。即使是心理健康、非狂熱的人也會抗拒在相對微不足道的事情上改變主意,因為承認錯誤是痛苦的。對於一個整個存在都圍繞其意識形態的人來說,一個對齊的 AI(即一個真正為這傢伙的最大利益著想的 AI)難道不會試圖免除他所有的痛苦,轉而試圖重塑現實以匹配他的信仰嗎?考慮到他至今的生活方式,我們能確信他內心真正想要的是聽到真相嗎?

如果涉及狂熱者,基於原則的對齊也不一定有幫助
那麼將 AI 與某些外部道德框架或一套原則對齊,獨立於任何用戶的偏好,情況會如何?

這種方法看起來比單純依賴偏好理想化更安全,且如果由理性的人控制過程並選擇明智的原則,確實可能有幫助。但它並不能自動解決狂熱問題。如果狂熱者對 AI 對齊的原則擁有重大影響力——如果對齊目標變成了某本聖經或《我的奮鬥》——我們就又回到了災難。在實踐中,關於對齊目標的決定將由人類做出,其中可能包括狂熱的人類。^()

否認現實、反多元化和懲罰性世界觀的普遍性

這些擔憂對於集體審議提案和 AI 對齊方法來說,其實際重要性部分取決於這類世界觀到底有多普遍。如所述,人類中非微不足道的一部分可以合理地被歸類為意識形態狂熱者。

然而,即使是生活在開放社會中的許多非狂熱人類,似乎也不優先考慮尋求真理。有些人明確承認這一點:西方社會約有 20% 的人不認為其信仰應基於證據(Pennycook et al., )。^()同樣,30% 的美國人()報告說,當科學與其宗教信仰衝突時,他們會堅持宗教信仰。^()更廣泛地說,大多數人類優先考慮——即那些讓他們看起來或感覺良好的信仰——而非真實的信仰(Williams, )。^()這使得將狂熱者納入長期反思或相關提案變得更加危險,因為我們無法確信明顯多數的公正真理尋求者會壓倒狂熱和非真理尋求的聲音。

由於如願望思維、和非代表性抽樣等偏差,我們許多人可能高估了人類對尋求真理的承諾:大多數長期主義者和 AI 治理研究人員在 WEIRD(參見 Henrich, )——西方、受過教育、工業化、富裕且民主的——社會中長大或工作,那裡對基於證據的信仰修正和科學的支持仍然相對較高,而對強制意識形態執行(如對叛教處以死刑、神權治理或對異議的極端懲罰)的支持相當低。^()但在其他地方,對這類世界觀的支持要高得多,有時甚至達到多數水平:例如,在伊朗超過 50%,在巴基斯坦超過 90%(世界價值觀調查, )相信「每當科學與宗教衝突時,宗教總是正確的」以及「唯一可接受的宗教是我的宗教」。

意識形態狂熱可能惡化許多其他風險

差異化的智力退化

意識形態狂熱可能通過驅動來加劇大多數其他風險。由狂熱意識形態統治的政權往往能夠維持甚至提升技術能力,同時系統性地降低、道德、理性、和有利於合作的制度。(這種退化通過多個強化的機制發生,例如實施和宣傳、用取代專家,以及獎勵順從的教條主義而非開放的討論和基於證據的推理。)

從長期主義的角度來看,這種模式尤為令人擔憂。人類迫切需要智慧、理性和強大的制度來應對如 AGI 治理之類的。改善因此已被視為重要的事業領域。

意識形態狂熱可能引發極端優化和永不滿足的道德慾望

狂熱主義從不睡眠:它永不滿足:……它從不被良知阻止;因為它已將良知強徵入伍。貪婪、慾望和復仇尚有虔誠、仁慈、榮譽可以對抗;狂熱主義則無物可擋。 ——

大多數非狂熱人類傾向於。他們妥協、投機、做方便的事,並樂於與他人交易。相比之下,狂熱者更有可能採取任何必要手段進行,最終旨在重新排列宇宙中的每一個原子以符合其意識形態的要求。這種針對特定價值體系的與大多數其他價值體系的實現是不相容的。

遺憾的是,一般的道德偏好似乎比自私的慾望更具規模敏感性且更耗費資源(Shulman, , pp. 4-6)。^()從自私的角度來看,大多數人大概只要有一兩個星系就會非常快樂;一些特別節儉的人甚至可能只要一個太陽系就能過活。^()未被殖民的遙遠星系對大多數利己主義者來說毫無意義,但對古典功利主義者來說卻是「」。(需要明確的是,這種規模敏感性本身並非問題;它顯然是真正道德關懷的一個特徵。)

考慮到他們折磨、謀殺、發動戰爭等等的傾向,狂熱者常被認為是不道德的。但這並不意味著狂熱者缺乏道德信念。在許多方面,意識形態狂熱的危險可以說源於過於強烈的道德信念。例如, 發現,更強的道德信念會導致更少的寬容和合作。狂熱者缺乏的是謙卑、節制、對他人福祉的關懷(即使他們不同意),以及對追求目標時什麼構成可接受行為設定限制的道德約束。

對於狂熱者來說,或許沒有任何勝利是足夠徹底的,沒有任何懲罰是足夠嚴厲的,沒有任何帝國是足夠廣大的。最終,意識形態狂熱可能最終消除對極大化行為的所有約束——使其道德變得獨特地「」。

末日恐怖主義

一些狂熱組織擁有極其傾向衝突的偏好。有些人甚至相信他們需要主動帶來末日——涉及巨大的苦難和破壞——以便開啟他們心目中的烏托邦。例如,伊斯蘭國相信他們必須在達比克擊敗「羅馬」軍隊(通常被解讀為美國),這將「啟動末日倒計時」(Wood, )。其他組織可能想殺死字面上的每個人。受基督教、印度教、佛教和陰謀論元素的驅使,奧姆真理教曾試圖製造以「救贖」人類。

S-risk 傾向與反向合作智能

Taylor () 使用「s-risk 傾向」一詞來描述如果被變革性 AI 等強大行為者所具備,可能會促成 s-risks 的屬性,這在很大程度上是通過啟動或升級衝突來實現的。Taylor 概述了以下廣泛類別:

  • 傾向於升級衝突、在與其他行為者衝突時發出巨大威脅,以及對作惡者實施嚴厲懲罰(懲罰性)。
  • 懷恨、報復心,以及風險承受或風險尋求行為。
  • 缺乏能讓行為者避免或化解衝突的有益能力(缺乏合作智能)。

值得注意的是,許多意識形態狂熱者往往表現出幾乎所有這些特徵。我們可以將這組傾向衝突的特質描述為一種「反向合作智能」——本質上與 研究議程尋求開發的目標相反。合作智能涉及進行對話、建立信任、化解衝突以及尋找互利的妥協方案,而狂熱者則傾向於因最輕微的分歧就將他人妖魔化、將妥協視為不可忍受的背叛、擁護殘酷暴力,並普遍升級衝突。

更具推測性的動態:純潔螺旋與自殘式苦難

狂熱的報復主義並非「狂熱烏托邦」中天文級苦難的唯一來源。以下雖然牽強但仍具可能性的動態,即使在意識形態狂熱者實現完全控制並消滅了所有指定敵人之後,仍可能創造永久的苦難。

(或道德競標),即成員通過越來越極端的措施競相展示意識形態承諾,可能會放大上述幾種風險。這種動態——見於法國大革命的恐怖統治或毛澤東的文化大革命——可能會強化狂熱報復主義本身,成員們競相主張對意識形態對手實施更殘酷的懲罰。任何建議僅處決而非永恆折磨的人都可能被貼上軟弱或叛徒的標籤。純潔螺旋還可能不斷擴大「敵人」或「邪惡」的定義,確保總有剩下的人可以懲罰。類似的動態在怨恨和仇恨的驅使下,也可能導致狂熱者主動尋求實現與其敵人價值觀相反的狀態。

一些意識形態狂熱者還可能出於意識形態原因擁抱禁慾主義自殘式苦難,認為苦難具有淨化作用或美德。與針對敵人的報復主義不同,這可能意味著對即使是「純潔」的內群體也施加苦難——且可能永遠持續。(這些情景在 中有進一步探討。)

未知的未知與應對奇異情景

雖然任何特定的災難性情景往往是不太可能的,但意識形態狂熱的基本特徵(特別是其教條主義、糟糕的認識論和盲目的仇恨)使其更有可能在廣泛的潛在情景中造成傷害,包括那些我們尚未識別或預見的情景。體現這類特質的行為者似乎也較不可能妥善應對奇異情景——等等。因此,從未知的未知和深度不確定性的角度來看,狂熱者顯得尤為令人擔憂。^()

干預措施

我們將潛在的干預措施分為兩大類。首先,我們討論「常規」的,這些干預在廣泛的世界觀中似乎都是有用的。其次,我們討論更直接的,這些干預往往更被忽視,且顯然具有更高的槓桿作用。(這也是我們預計未來工作重心所在的領域。)

然而,我們在政治/社會干預與 AI 相關干預之間劃定的界限有些人為,且可能具有誤導性。僅關注狹隘的 AI 安全概念會面臨忽視政治和社會干預的風險,而後者顯然能改善 AI 的結果。如果我們希望社會能對變革性 AI 的未來做出合理的決定,那麼在政治權力職位上(包括美國政府的各個部門)擁有理性的人將會有所幫助。同樣,許多以 AI 為中心的干預措施也依賴於政治意願和政府能力。

這裡討論的大多數干預措施並非首創,且與現有的長期主義優先事項重疊。但狂熱視角可能會改變優先順序,特別是從 s-risk 的角度來看,使某些先前看起來中性或適得其反的方向顯得更有前景。我們對防止 AI 輔助政變、算力治理、使 AI 本身非狂熱化以及開發具備抗狂熱能力的 AGI 治理提案尤為感興趣。話雖如此,我們的大多數建議都是初步的,有些可能在進一步調查後被證明是誤導性的。此外,我們可能還未意識到最有前景的反狂熱干預措施;希望其中一些能通過進一步研究被識別出來。

社會或政治干預

本節中的干預措施在重要性、可行性和被忽視程度方面都沒有特別高的評分。然而,鑑於這些領域投入了巨額資金,使這些努力哪怕

維護民主

美國是世界上最強大的國家,並在 AI 開發方面領先。因此,維護美國民主^()似乎對於減少來自惡意和狂熱行為者的許多長期風險至關重要。當然,其他強大的民主國家也可能影響人類的長期未來。因此,防止印度及整個歐洲的民主倒退也是重要的。^()

我們如何防止進一步的民主倒退?下文我們關注減少極化和加強反狂熱原則。我們強調這些並非因為它們必然是總體上最重要的干預措施,而是因為它們與意識形態狂熱的長期風險最直接相關。

減少政治極化

過度的政治極化會腐蝕民主規範和制度,造成立法僵局,並增加群體間的敵意(Levitsky & Ziblatt, 2018; Binder, 2004; Mason, 2018)。^()就我們的目的而言,最令人擔憂的是,極化似乎創造了加劇意識形態狂熱核心特徵的心理和社會條件:認識論教條主義(迫使人們在各自部落認可的信仰之間做出選擇,而非遵循證據)、內群體忠誠(無論如何都捍衛自己陣營的人)和部落仇恨(所有政治對手都被視為生存敵人^()),以及對極端行為(包括政治暴力)的呼籲。

這種動態似乎通過各種惡性反饋循環展開:兩側的極端分子採取日益非理性的立場——有時作為部落忠誠的高代價信號。每一方的極端主義反過來證實了另一方最深的恐懼,使人們變得更加部落化和非理性。與此同時,溫和或細緻的立場變得越來越難以維持,因為每個人都必須選擇一邊,否則就會受到兩邊的攻擊(即使他們批評的頻率遠高於另一方)。

最終,這類極化螺旋可能催生出兩個對立的狂熱意識形態。^()(在學術文獻中,這被研究為競爭性極端主義相互激進化。^())歷史例子包括威瑪共和國,共產黨和納粹黨在 1928 年合計僅掌握 13% 的選票,但到 1933 年飆升至 56%,他們的街頭暴力相互滋養;或者 1930 年代的西班牙,遠左翼無政府主義者和遠右翼法西斯分子向內戰升級。在每個案例中,極端分子都有一種矛盾的共生關係,每一方的過激行為都被用來證明另一方的末日敘事和日益極端行動的正當性。^()雖然當代西方政治尚未接近這些歷史例子的嚴重程度,但這類動態的較輕版本顯然存在,特別是在某些國家。

除了助長意識形態狂熱外,極化還削弱了社會的認識論和解決複雜問題的能力。隨著我們接近 AGI 及其相關的,這變得尤為危險,因為這些挑戰比普通政治問題更需要明智、基於證據的審議。極化還侵蝕了社會信任並增加了衝突風險,而衝突本身就是 。因此,打破極化螺旋不僅對近期的民主穩定有價值,對於確保人類能明智地導航其未來也至關重要。

能做些什麼?前進的最佳路徑可能需要文化變革以及制度和結構性改革。^()政治學家 Lee Drutman () 認為,美國極化的主要原因是其僵化的兩黨制,這是由其選舉制度造成的。Drutman 將視為減少這種「」過度黨派極化的兩條最有前景的路徑。^()特別是比例代表制,它抑制了狂熱者典型的外群體妖魔化和拒絕妥協的行為——將所有其他政黨稱為不可救藥的邪惡會使尋找聯盟夥伴變得困難,從而限制了奪權路徑。^()其他人則主張(而非總統制)。^()^()^()

推廣反狂熱價值觀:古典自由主義與啟蒙原則

對抗意識形態狂熱最根本的干預措施,可以說是推廣那些能主動抵消它的價值觀、規範和原則。我們將啟蒙原則(例如 Pinker, )——我們在此交替使用這兩個術語——視為經受時間考驗的堡壘,它們幾乎與意識形態狂熱直接對立。它們為管理分歧提供了制度框架,並提供了直接對抗意識形態狂熱的實質性承諾:

  • 它們不主張對任何單一權威掌握所有真理和美德的教條確定性,而是推廣理性、證據、科學方法、以及對傳統權威的懷疑。
  • 它們不主張部落式的忠誠和仇恨,而是倡導普遍的人道主義(有時甚至包括對其他感官生命的道德考量)、個人自由、法律面前的平等和寬容。
  • 它們不主張將權力集中在一個最高權威手中的極權式「任何必要手段」,而是支持程序正義、權力分立和法治。^()

這些並非隨意的偏好,而是相互強化的原則,創造了防止意識形態狂熱橫行所需的價值觀制度。古典自由主義認識到沒有人擁有獲取絕對真理的特權,因此它不要求在終極真理上達成共識,只需在允許和平共處的程序規則上達成一致(參見羅爾斯的)。這種認識論上的謙卑創造了開放社會,使其能承認自身的局限性,並通過選舉和公開辯論而非暴力和革命來。^()然而,這需要哲學承諾(理性、權利、寬容)和制度架構(民主、憲法、獨立法院、言論自由)共同發揮作用。

遺憾的是,古典自由主義和啟蒙原則正受到來自不自由運動(如右翼和左翼極端主義以及宗教原教旨主義)日益激烈的攻擊。我們如何捍衛這些原則?最通用的方法是為廣大受眾創造體現啟蒙原則並幫助社會更理智思考的內容。許多主流知識分子、記者、出版物和組織已經在這一領域開展了相關工作。^()加強古典自由主義對抗狂熱意識形態的其他途徑包括法律倡導平等保護、言論自由和其他基本權利。各國政府已經參與提供,並在歷史上支持過等努力,這些努力曾幫助削弱極權意識形態。維護和捍衛這些現有基礎設施可能與創造新的或更具成本效益的倡議同樣重要。

從長期主義的角度來看,捲入當今政治和文化鬥爭的紛擾似乎顯得短視。幾千年後回首往事,政治情緒的擺動難道不會大多抵消到微不足道嗎?但如果變革性 AI 在未來十年內到來,我們這個時代的政治和認識論條件可能會非微不足道地影響人類的長期軌跡。

擴大自由民主國家的影響力

我們可能會試圖通過加強更自由民主政權的防禦和影響力,來減少狂熱政權的預期影響力。當然,民主政府已經投入了巨額資源來提高其工業實力、技術和軍事力量,但他們顯然可以在各方面做得更好。

一個想法(很大程度上是為了說明總體觀點)是讓民主國家接納更多(高技能)移民,鼓勵經濟學家所說的「」。^()威權國家中受教育程度最高的公民往往是最渴望離開的人——如果這些人能更容易地移居民主國家,他們不僅會使民主國家變得更強大,還會使威權國家變得更虛弱。^()美國或做出一些,就能大大加速這一持續過程。^()

另一個有前景的方法是促進歐洲的經濟增長和創新,特別是在 AI 方面。在許多方面,歐洲是古典自由原則的堡壘,但其。促進自由民主國家的增長將提升其相對實力(也可能減少對狂熱主義的脆弱性^())。特別是先進 AI 可能巨大的經濟和利益。因此,讓自由民主國家成功開發和利用 AI 能力是非常重要的(同時減輕各種風險)。

當然,你只有在確信自己是在將權力平衡推向穩健的正向方向時,才會追求這類干預。鑑於美國已經是世界上最強大的國家,進一步加強的邊際價值可能低於。同樣,加強其他自由民主國家,特別是歐洲國家,可以有意義地改善自由世界的整體地位。

鼓勵不自由國家的改革

在 1980 年代,許多歐洲國家處於蘇聯結盟的共產主義政權控制之下。到 1990 年代,大多數國家已轉型為民主國家,這一轉變因旨在改革這些政權的刻意努力而加速。

今天的類似努力可能會減少狂熱政權的影響力。機會包括支持反對派運動和批評政權的媒體、將發展援助或歐盟/世貿組織成員資格與民主標準掛鉤、通過移民吸引頂尖人才,或實施經濟制裁。

然而,這一領域既容易產生反效果,也並非被忽視:美國歷史上曾進行過無數旨在改革和削弱不自由國家的努力——往往帶來負面後果。一般而言,我們應對對抗性干預保持謹慎,並在可能的情況下專注於合作解決方案。^()

促進國際合作

促進國際合作看起來是有益的,部分原因是它可以降低(如美中衝突)的風險,這類衝突會。大國衝突還可能為狂熱者奪取權力創造路徑:^()

  • 戰爭強化了危險的「敵人的敵人就是朋友」動態,這可能賦予狂熱者權力。當面臨生存威脅時,國家更有可能與任何人(包括狂熱者)結盟對抗其主要對手。例如,為了在阿富汗削弱蘇聯,美國支持了伊斯蘭,結果卻看到那些戰士後來形成了塔利班和基地組織。CRINK 這一新興鬆散聯盟中也存在類似邏輯。中國、俄羅斯、伊朗和北韓除了共同反對美國外,幾乎沒有意識形態共同點。因此,減少美中緊張局勢也可能削弱這些聯盟的強度。
  • 技術共享增加。在如戰時等絕望時期,國家更有可能與盟友(包括潛在的狂熱盟友)分享其最先進的技術。隨著二戰局勢對其不利,納粹分享了,甚至試圖與日本帝國分享。同樣,在未來可能發生的美中 AI 霸權衝突中,失敗者出於絕望或報復,可能會分享其 AI 能力。
  • 信息安全面臨壓力。戰時既增加了需要接觸敏感技術的人數,也增加了對手嘗試滲透的動機。安全措施可能會加強,但往往不成比例。曼哈頓計劃儘管有嚴密預防措施,仍被滲透,他將全面的核設計傳遞給了蘇聯。戰時的緊迫性也可能迫使組織接受他們平時會拒絕的風險。在 AI 背景下,算力基礎設施的快速擴張、緊急夥伴關係和倉促招聘都可能創造漏洞。
  • 加劇政治極端主義。戰爭為創造了肥沃的土壤。戰時宣傳可能會增加部落式的民族主義(對國家的任何批評都被貼上背叛標籤)、惡化認識論並使暴力常態化。失敗或民族恥辱可能會產生(可能是合理的)怨恨,這會賦予極端主義運動權力(參見中國的「」敘事,或德國一戰失敗後助長希特勒上台的「」神話)。
  • 民主倒退與威權主義興起。衝突常被潛在的獨裁者用作鞏固權力的藉口。例如,如果與中國爆發戰爭,有些人可能支持援引並暫停民主進程。
  • 國家崩潰與革命。大國衝突似乎是革命的主要驅動力(參見 Skocpol, 1979)。一項表明,超過 70% 的重大革命(1900 年至 2010 年間)發生在大國衝突期間或作為其直接結果。目前真正狂熱的政權僅有少數,因此新的革命預期會使情況變得更糟,可能在先前穩定的地區產生新的狂熱政權。戰爭的代價和混亂還可能增加(部分)國家崩潰的風險,允許狂熱組織奪取關鍵資源。過去這意味著常規武器(如),未來這可能意味著 AI 關鍵基礎設施。

加強合作帶來的風險
某些類型的合作可能會增加意識形態狂熱者獲得權力的風險。例如,在 AI 方面的某些合作可能會降低美國獲得決定性優勢的機會。一個明顯的例子是美國取消對中國的算力出口管制——這在某種意義上非常「合作」。歷史例子如張伯倫對希特勒失敗的綏靖政策,以及德國對俄羅斯的「」政策,證明了天真的合作可能帶來不理想的結果。

干預措施
什麼樣的干預措施能有效增加普遍的國際合作。^()致力於達成旨在化解特定地緣政治導火索或治理 AI 等潛在不穩定技術的國際協議,可能更具可行性。

》可以作為治理新興技術協議的通用模型。通過該條約,意識形態上的敵人在防止核混亂方面進行了合作,因為另一種選擇是對所有人的威脅。由於 AI 的災難性潛力超過了核武器,這類務實的合作顯然變得更加必不可少。^()

有前景的現有工作包括建立美中 AI 安全協調框架,這由 (包括其項目 )等組織推動;以及 正在制定國際 AI 治理提案,等智庫也在開展相關工作。

人工智能相關干預

降低變革性 AI 落入狂熱者手中的機會

變革性 AI 可能賦予巨大的權力和控制力——足以永久「」文明長期未來的軌跡(或其一部分)。因此,確保狂熱者不掌握它是至關重要的。它也可能很快到來—— 之前——因此時間至關重要。

算力治理
從 1940 年代起,法規都限制了鈾的出口,並引入了監測機制以防止流氓國家獲得核武器。這些管制減緩了擴散;目前僅有九個國家

正如鈾是核武器的關鍵成分,計算能力(簡稱「算力」)是 之一。它或許也是。美國已經通過出口管制,特別是 2022 年的《晶片法案》,該法案限制了先進晶片出口,並限制美國公司支持中國的半導體行業。^()但算力治理包含出口管制之外的廣泛措施,從

就我們的目的而言,算力治理的目標是最大限度地減少意識形態狂熱政權(和惡意行為者)獲取先進 AI 的機會。^()這與美國現有的出口管制一致,後者雖然主要針對中國,但也限制了其他國家獲取先進晶片。出口管制或許是最具爭議的算力治理措施,因為它們面臨加劇緊張局勢或和基礎設施建設的風險。^()但追蹤、分配和監管算力的能力,是許多擬議的 AI 治理「勝利理論」的要求,包括「」或「」,即自由民主國家尋求保留。^()

防止在專制國家建立關鍵 AI 基礎設施
一個相關但更有針對性的干預是防止在威權國家建立關鍵 AI 基礎設施(如)。這將使威權政權更難提取模型權重、強行奪取集群或以其他方式獲取 AGI。為此,如果美國政府將 AI 基礎設施指定為出於國家安全原因而給予特殊保護的「關鍵基礎設施」,也可能是有益的。成功地將新算力基礎設施留在民主管轄區,可能還需要以促進新發電廠和基礎設施的更快建設。

信息安全
行為者或其他關鍵 AI 創新,可能會利用它們實施網絡犯罪、工程化大流行病或造成其他傷害。我們已經討論過,如果狂熱行為者能利用強大的 AI 系統對世界獲得更多影響力,將產生。根據 ,AI 公司根本沒有為最高能力的攻擊(如準備充分的國家行為者)做好準備。^()遺憾的是,具有狂熱傾向的政權似乎擁有

就像算力治理一樣,我們在這裡並非提出任何新穎的東西;許多人已經討論過加強信息安全的必要性。前沿 AI 信息安全的進展,且已有許多組織在開展相關工作,包括領先的 AI 公司本身;如 等初創公司;如 等支持相關政策的智庫;以及如 等領域建設倡議。

防範 AI 輔助的政變
AI 可能實現權力的極度集中。看起來尤為令人擔憂,部分原因是它可能讓(或)掌權。^()

我們對 Forethought 研究人員在這一領域的工作感到興奮。 (Davidson et al., 2025) 討論了幾個風險因素和情景,例如開發對特定人具有秘密忠誠度的 AI,或一小群人獲得對輔助政變的 AI 能力的獨家訪問權。

為了減輕這些風險,Forethought 的研究人員建議 AI 的模型規範(model spec)——即它遵循的規則和原則——應設計成 AI 不會協助政變。類似於(下文進一步討論)的技術,可用於確保某些原則優先於可能企圖發動政變的 AI 公司高管或政府官員的要求。也可能有幫助,因為政變在定義上是非法的。

Forethought 還建議了許多其他對策,包括審計秘密忠誠度、更強的^()、模型規範透明度以及更廣泛共享的 AI 能力訪問權。有關更詳細的討論,請參閱完整報告。

使變革性 AI 本身較不可能變得狂熱

雖然揮舞強大的 AI 是關鍵,我們也應確保 AI 本身不會發展出狂熱或其他不理想的特質。

為了說明,考慮一個簡化的光譜:^()在光譜的一端,我們有完美的意圖對齊 AI 系統,毫無異議地服從人類的每一條指令。沿著這個連續體進一步發展,AI 可能像顧問一樣運作,試圖引導其人類委託人(類似於許多現有的 LLM 拒絕協助有害請求的方式)。在另一端,AI 可能發展成具有自己獨立價值觀和性格的完全自主存在

AI 顧問可能發揮巨大影響力:它們可以作為尋求真理的顧問,試圖引導即使是狂熱的用戶轉向。或者,AI 顧問可能是,無論是否理智都強化現有信仰。更糟糕的是,它們可能(被設計為)主動鼓勵有害和

完全自主、可能未對齊的 AI 情況更為複雜。未對齊的 AI——傳統的說明性例子是——通常被構想為對苦難或其他存在的偏好完全不在意的殘酷優化過程。然而,完全自主、未對齊的 AI 也可能具有相對甚至的傾向,同時最終仍試圖剝奪人類權力並控制宇宙。^()事實上,潛在超智能 AI 的性格可能是決定長期未來質量的最重要變量之一。用嚴酷而簡化的話來說:即使兩者都不受人類控制,一個由數兆個未對齊的「超佛陀」居住的宇宙,可能比一個由數兆個未對齊的「超史達林」居住的宇宙包含更多的繁榮和更少的苦難。^()

因此,問題不僅在於 AI 是否會對齊,還在於我們正在創造什麼樣的存在。也就是說,我們應該仔細思考我們正在開發的 AI 的性格。^()賦予 AI 廣泛理想且仁慈的「」(參見 Chen et al., )或美德性格特質^()似乎極具價值——鼓勵趨向理性、、同情和合作的傾向,同時主動抑制,如和狂熱。^()為了「簡潔」以及因為狂熱可以說是上述大多數理想特徵的反面,我們在本文中關注狂熱。

下面我們概述在預訓練、後訓練和部署期間進行干預的機會。

預訓練保護
在 AI 系統進行微調之前,它們首先在預訓練期間從數兆個單詞中吸收模式。這個初始學習階段似乎了模型的性格和世界觀。例如,至少在 Grok 3 發布的最初幾天,xAI 的工程師難以阻止 Grok 在被問及「誰傳播了最多的虛假信息?」及類似問題時提到。據推測,這是因為 Grok 是在以負面方式討論馬斯克的內容上訓練的。無論如何,在 AI 經歷了廣泛的預訓練之後,要影響其「價值觀」遠非易事。

因此,我們可能會得出結論,應該從預訓練數據中過濾掉狂熱或不理想的內容。例如,我們可以嘗試阻止 AI 閱讀《我的奮鬥》。但預訓練過濾似乎效果不佳,即使是相對狹窄的知識領域也是如此。這類粗暴的審查也可能為濫用打開大門,AI 開發者可能會審查任何他們不同意的內容。最後,僅僅刪除關於狂熱意識形態的信息會侵蝕 AI 對它們如何產生、運作和傳播的理解——這種理解對於許多有價值的目標來說似乎是有用的。例如,GPT-4 可以減少甚至強烈信徒的陰謀論信仰(Costello et al., ),部分原因是它對這些理論的詳細了解使其能提供令人信服的反駁。

總體而言,讓 AI 了解人類歷史的恐怖,同時賦予它們有助於理解為什麼像《我的奮鬥》這類書籍是極其錯誤的,似乎更好。此外,我們可以尋求通過在預訓練中添加額外的合成數據來引導 AI 支持各種有益原則,展示公正、同情和謙卑等特質。

後訓練
是訓練模型使其行為符合預定義「憲法」或一套原則(如幫助性、無害性、誠實性)的方法。利用這類憲法來促進理性、同情等積極原則,或避免外群體仇恨、懲罰性等狂熱特質,存在大量機會。似乎是一個尤為有前景的方向。

除了憲法 AI,在其他(相關的)後訓練形式中也可能存在干預點。例如,在期間,我們可以通過調整我們對不同模型輸出的評分和排名方式,或者在時進行篩選,來訓練模型優先考慮認識論上的謙卑並懲罰狂熱的推理模式。或者,對抗性微調(O’Neill et al., 2023)或偏好優化(Rafailov et al., 2023)技術可以利用狂熱與平衡推理的配對示例,教導模型識別並偏好後者。

狂熱或「性格」基準測試
即使 AI 模型已經訓練完成,我們仍能影響它是否以及如何被部署和使用,例如通過測試意識形態狂熱特質的基準測試或——或其他理想的性格或特質,如誠實、同情、仁慈、合理性等。

有人可能認為當前的前沿模型沒有狂熱特質,短期內也不會有。例如,Claude 表現得始終如一地深思熟慮且平衡。然而,在 2025 年 7 月,Grok 表現出極端的反猶主義和種族主義,甚至稱自己為「」。同樣,DeepSeek 被記錄到以符合中共偏好敘事的方式

這些例子說明並非所有 AI 開發者都同樣優先考慮理想特質——雖然 Anthropic 投入巨資於憲法 AI 以使 Claude 「有助、誠實且無害」,但其他公司可能有不同的優先級或價值觀。隨著更多行為者開發前沿模型,模型表現出狂熱或不理想特質的風險也在增加。

擁有客觀的基準測試將允許我們量化這些差異,並可能有助於告知:

  • 前沿 AI 公司:如果模型表現出令人擔憂的特質或行為,公司可能會選擇在不進一步微調的情況下不使用或不銷售它;閾值可以在(或其他「」)中指定。
  • 監管機構:模型可能被法律要求在部署前達到某些標準。
  • 消費者:即使模型已經公開可用,消費者如果發現模型的行為令其擔憂,可能會選擇避開它。

一旦這些系統到位,它們就會重塑激勵景觀;如果公司知道這將被負面評估並可能影響監管或消費者需求,他們可能會在預訓練和後訓練階段更努力地避免狂熱的模型特質。

我們對日益增長的 AI 評估生態系統感到興奮——從 等非營利組織到英國 等政府機構——將意識形態狂熱(或惡意、合作性和真實性等相關問題)的基準測試納入其中。

利用 AI 改善認識論與審議

到目前為止,我們僅探討了如何降低變革性 AI 的風險。但我們也可以嘗試利用 AI 來幫助我們主動對抗意識形態狂熱——這反映了「」的更廣泛原則,即我們使用 AI 本身來協助 AI 對齊。特別是利用 AI 改善審議和認識論看起來很有前景,尤其是因為薄弱的認識論是意識形態狂熱的一個關鍵特徵。

樂觀的一個原因是現有的 AI 模型已經能穩定地減少對陰謀論的信仰(Costello et al., )。找到完善並擴大這類效果的方法可能極具影響力。隨著越來越多的人開始使用 AI 模型,只要 AI 擁有理智的觀點,其中一些積極效果事實上可能會默認發生。

在日益增長的 AI 認識論領域中,其他有前景的干預包括自動化事實核查(在社交媒體及其他地方)、(特別是在政策制定等高後果領域),以及或許能推動預測市場的更廣泛使用。在這一領域,我們強烈推薦 Lukas Finnveden(例如 , )、William MacAskill (2025d, ) 和 Ben Todd () 的著作和許多擬議的項目想法。^()最後,阻止或限制那些惡化社會認識論能力的工具的創造也可能變得重要。

AI 認識論干預是可擴展且可自動化的,因此可能比改善認識論的常規方法具有高得多的槓桿作用(只要相關 AI 足夠理智^())。隨著 AI 變得越來越多且強大,賦予它們良好的認識論和其他有益、非狂熱傾向的重要性只會增加。

抗狂熱的後 AGI 治理

即使我們防止狂熱行為者,我們也必須避免通過天真設計的後 AGI 治理機制無意中賦予他們影響力。這裡的利害關係是天文級的:外太空資源如何分配和使用可能取決於早期的治理決策。

大多數治理框架都面臨同一個核心問題的版本:如何在不使最壞的行為者造成不成比例傷害的情況下,公平地分配權力和資源。賦予廣泛主權的系統面臨狂熱者在其領域內擁有不受限制權力的風險^();轉而採用集體決策(例如讓每個行為者在共享結果中擁有一票)的系統看起來更安全,但仍具脆弱性。^()這種緊張關係有點類似於:一個最大程度包容、自由的系統可能會被那些旨在拆除其價值觀的人所利用。而且這不能輕易推遲到「長期反思」,因為它涉及誰應被納入這類過程的根本問題。^()

或許後 AGI 時代最重大的事件將是採納類似「星際憲法」的東西,作為任何後 AGI 政權的基礎章程。^()其條款具體應包含什麼是未來工作的領域。然而,在這種憲法中包含一項禁止故意對任何有感知的生命施加極端、非自願苦難的普遍法律,似乎是最重要的條款。^(),^()上文討論的許多干預措施希望能增加實現這一目標的可能性,無論多麼間接。

應對意識形態狂熱的深層原因

許多人類似乎被狂熱意識形態所吸引,因為它們在一個往往混亂、不公且令人痛苦的世界中提供了意義感、安全感、地位和歸屬感(Hoffer, 1951; Borum, ; Morton & Greenberg, ; Van Prooijen and Krouwel, ; Kruglanski et al., ; Klausen, ; Gwern, )。經歷過創傷的人可能特別容易受到意識形態狂熱的影響(例如 Van Prooijen and Krouwel, ; Morton & Greenberg, ; Hoffer, )^(),那些經歷怨恨或羞辱的人也是如此(Storr, ; Williams, )。

這暗示了從根源解決狂熱主義的機會——通過經濟支持(如 UBI)、心理治療(AI 可能大規模提供)、社群建設、反激進化計劃,以及改革社交媒體以促進更好的認識論。^()

遺憾的是,這些干預措施大多看起來並非特別有前景。用今天的手段從根源解決狂熱主義是困難的。然而,持續的技術進步可能會消除助長狂熱主義的絕望和怨恨,最終為每個人創造一個