[抱歉這篇文章篇幅較長。我建議不要過度糾結於所有具體的數字和正式的機制。最初的計劃是同時從非個人(風險最小化)的角度分析最佳時機;但為了防止文本進一步膨脹,該主題被留待未來的工作(可能永遠不會完成)。但我至少應該強調,還有其他重要的因素在這裡沒有涵蓋,如果想要確定考慮到所有因素後的最佳時間線,則需要將這些因素納入考量。 ]
[工作論文。 ^([1] )* 版本 1.0。 *本文未來修訂版的規範連結 。]
摘要
開發超人工智慧(Superintelligence)不像玩俄羅斯輪盤;它更像是為了一種若不治療則會致命的疾病而接受高風險手術。我們從「受人影響」(person-affecting)的立場出發,檢視最佳時機(並撇開模擬假設和其他玄奧的考量)。納入安全性進展、時間貼現、生活品質差異以及凹性 QALY 效用的模型表明,即使是高機率的災難通常也值得接受。優先主義(Prioritarian)權重會進一步縮短時間線。對於許多參數設置,最佳策略將涉及快速推進到 AGI 能力,然後在全面部署前進行短暫暫停:快馬加鞭至港口,緩步慢行至泊位。但執行不力的暫停可能弊大於利。
引言
有些人呼籲暫停或永久停止 AI 開發,理由是這將導致 AGI 和超人工智慧,從而帶來無法忍受的危險,包括生存風險。例如,艾利澤·尤德科夫斯基(Eliezer Yudkowsky)和內特·索爾斯(Nate Soares)在他們最近的新書《如果有人造出它,每個人都會死》(If Anyone Builds It, Everyone Dies )中主張,各國應強制執行全球禁令,禁止先進 AI、支持其運行的計算基礎設施,以及改進 AI 演算法的研究。^([2] ) 這些作者對對齊(aligned)的超人工智慧前景極度悲觀,認為它的出現幾乎等同於必然的毀滅。在他們看來,創造超人工智慧遠比讓全人類遭受普遍的死刑判決還要糟糕。^([3] ) 其他人則認為,即使是低得多的風險水平也足以證明無限期暫停 AI 是合理的。他們問道,讓我們的整個物種暴露在哪怕只有十分之一的毀滅機會中,難道不是極其不負責任的嗎?
然而,健全的政策分析必須權衡任何新興技術的潛在利益與風險。尤德科夫斯基和索爾斯堅持認為,如果有人造出 AGI,每個人都會死。人們同樣可以堅持認為,如果沒有人 造出它,每個人都會死。事實上,大多數人已經死了。我們其餘的人也將在短短幾十年內步其後塵。對於許多人——如老年人和重病患者——終點要近得多。超人工智慧的部分承諾在於它可能從根本上改變這種狀況。
對於 AGI 和超人工智慧(我們不對這些術語進行精確定義,因為本文的考量並不取決於兩者之間界限的具體劃分),其潛在利益是巨大的。特別是,足夠先進的 AI 可以消除或減少許多其他威脅我們生存的風險,無論是作為個人還是作為文明。
超人工智慧將能夠極大地加速生物學和醫學的進步——設計出治癒所有疾病的方法,並開發強大的抗衰老和回春療法,使虛弱和患病者恢復充分的青春活力。^([4] )(除此之外還有更激進的可能性,例如意識上傳,儘管我們的論點不需要考慮這些。^([5] ))想像一下,通過在患者大腦中重新生長丟失的神經元來治癒阿茲海默症。想像一下,用標靶療法治療癌症,消除每一個腫瘤細胞,卻不會產生當今化療那種可怕的副作用。想像一下,將受損的關節和阻塞的動脈恢復到原始的年輕狀態。在超人工智慧引導我們的科學時,這些場景將變得現實且迫在眉睫。
對齊的超人工智慧還可以大大增強人類對抗全球威脅的集體安全 。它可以就世界規模決策的可能後果向我們提供建議,幫助協調避免戰爭的努力,對抗新的生物武器或其他新興危險,並總體上引導或穩定各種可能破壞我們未來的動態。
簡而言之,如果向超人工智慧時代的過渡進展順利,無論是對於挽救現有個人的生命,還是對於保障源自地球的智慧生命的長期生存和繁榮,都有巨大的好處。因此,我們面前的選擇並不是在無風險的基準線和冒險的 AI 冒險之間。而是在不同的風險軌跡之間,每一條軌跡都讓我們暴露在一組不同的危害中。沿著一條路徑(放棄超人工智慧),每天有 170,000 人死於疾病、衰老和其他悲劇;人類和動物普遍遭受苦難;我們暴露在某種程度的持續生存風險中,且這種風險看起來還會增加(隨著 AI 以外的其他強大技術的出現)。另一條路徑(開發超人工智慧)引入了來自 AI 本身的前所未有的風險,包括災難性失調(misalignment)和其他失效模式的可能性;但它也提供了消除或大幅減輕基準威脅和不幸的機會,並開啟美妙的繁榮新境界。為了在這些路徑之間做出明智的決定,我們必須比較它們複雜的風險特徵——以及潛在的好處——對於我們今天活著的每個人以及整個人類而言。
考慮到這一點,情況變得很清楚(儘管 Hunt、Yampolskiy 和其他多位作家有不同看法),將 AGI 開發比作俄羅斯輪盤遊戲是不恰當的。^([6] ) 是的,啟動超人工智慧伴隨著巨大的風險——但更好的類比是一位患有嚴重心臟病的患者在決定是否接受高風險手術。想像一位患有晚期冠狀動脈疾病的患者,必須權衡繞道手術的即時風險與不治療該病症的持續風險。如果不進行手術,他們預計可能還能活幾個月,但每天發生致命心臟事件的風險會逐漸增加。在任何特定的一天死亡的風險仍然很小,但隨著時間的推移會無情地累積。如果他們選擇手術,他們面臨著在手術台上立即死亡的高得多的風險。然而,如果程序成功,回報是更多年的健康生活。
患者是否應該接受手術,以及何時接受,取決於許多變量——他們的風險承受能力、對未來生命年的貼現率、是否可能在某個時間點出現技術更高超的醫生、如果病症治癒後他們的生活品質會提高多少,等等。所有這些考量在決定是否以及何時部署變革性的超人工智慧 AI 時都有明確的平行對應關係。^([7] )
當我們把帳本的兩面都考慮在內時,如果超人工智慧能較快開發出來,我們個人的預期壽命更高 是很有可能的。此外,我們有望獲得的生命品質很可能比我們冒險失去的生命品質高得多。即使基於對失調 AI 導致災難的機率極度悲觀的「末日論者」(doomer)假設,這一結論依然成立。
評估框架
分析我們困境的所有方面可能是不可行的——這肯定太過複雜,無法在單篇論文中嘗試。然而,我們可以通過幾個不同的視角來檢視其中的一些權衡,每個視角都提供了對某些相關考量的觀察。通過這樣分解問題,我們可以澄清我們面臨的宏觀戰略選擇的某些方面,即使全面的評估仍然遙不可及。
一個有用的區分是我們所謂的世俗 (mundane)與玄奧 (arcane)考量領域。前者指的是大多數受過教育的現代人都能理解且不會覺得古怪或怪異的普通世俗考量(考慮到假設的技術進步)。後者指的是其餘所有內容——人擇原理、模擬理論、外星人、超人工智慧之間的貿易、神學、非因果決策理論、具有道德地位的數位心智、無限倫理等等。在作者看來,玄奧領域是相關且重要的;但它更難以掌握,預先將其納入會掩蓋一些值得提出的簡單觀點。因此,在本文中,我們將範圍限制在世俗考量(將更奇特的問題留待後續工作處理)。^([8] )
無論是在世俗還是玄奧領域,我們還必須決定應用哪種評估標準。特別是,我們可以區分「受人影響」視角(側重於現有人的利益)和「非個人」視角(將考量擴展到所有可能因我們的選擇而產生或不產生的未來世代)。個人死亡風險在受人影響視角中非常突出,而生存風險則是非個人視角的核心關注點。在下文中,我們採用受人影響視角(將非個人視角的分析留待未來工作)。
我們首先引入一個非常簡單的模型。隨後的章節將探討各種複雜情況和詳細說明。^([9] )
一個簡單的啟動/不啟動模型
假設在沒有超人工智慧的情況下,平均剩餘預期壽命為 40 年。^([10] ) 有了超人工智慧,我們假設回春醫學可以將死亡率降低到與目前發達國家健康 20 歲年輕人相當的恆定水平,這對應於約 1,400 年的預期壽命。^([11] ) 這是保守的,因為超人工智慧還可以減輕許多非衰老死因——如傳染病、事故和自殺性憂鬱症。這也是保守的,因為它忽略了更激進的可能性(如具有定期備份副本的意識上傳),這可能產生極其漫長的壽命。^([12] )
現在考慮在永遠不啟動超人工智慧或立即啟動之間做出選擇,後者帶有 $x$ 的即時普遍死亡風險。開發超人工智慧會增加我們的預期壽命,若且唯若:
$$(1-x) \cdot 1400 > 40 \quad \Rightarrow \quad x \lesssim 97%$$
換句話說,在這些保守假設下,只要 AI 引發毀滅的機率低於 97%,開發超人工智慧就會增加我們剩餘的預期壽命。
更一般地,令 $m_0$ 為 AGI 之前的年度死亡風險,令 $m_1$ 為成功啟動 AGI 後的風險。分別為 AGI 之前和之後的生活分配正的生活品質權重 $q_0$ 和 $q_1$。對於今天活著的人來說,立即啟動會增加(品質調整後的)預期壽命,若且唯若:
$$x < 1 - \frac{q_0 m_1}{q_1 m_0}$$
表 1 說明了不同生活品質情景下的風險截止值。
表 1:如果 AGI 後預期壽命為 1,400 年,可接受的 AI 風險
| AGI 前 LE (y) | AGI 後 LE (y) | $q_1/q_0$ | 最大 Pdoom |
| :--- | :--- | :--- | :--- |
| 40 | 1,400 | 1 | 97.1% |
| 40 | 1,400 | 2 | 98.6% |
| 40 | 1,400 | 10 | 99.7% |
表 2 顯示了如果預期壽命增益僅為 20 年(因此 AGI 後預期壽命為 60 年而非 40 年)時對應的閾值——這可能是由於某種原因潛在的衰老過程仍未解決的情況。
表 2:如果 AGI 後預期壽命為 60 年,可接受的 AI 風險
| AGI 前 LE (y) | AGI 後 LE (y) | $q_1/q_0$ | 最大 Pdoom |
| :--- | :--- | :--- | :--- |
| 40 | 60 | 1 | 33.3% |
| 40 | 60 | 2 | 66.7% |
| 40 | 60 | 10 | 93.3% |
我們觀察到,從世俗的受人影響視角來看——即使沒有生活品質的差異,且對超人工智慧實現的壽命延長做出了非常適度的假設——現在開發超人工智慧即使在 AI 風險相當高的情況下也會增加 預期的剩餘壽命。^([13] )
納入時間與安全性進展
前一節將選擇視為二元的:要麼現在啟動超人工智慧,要麼永遠不啟動。然而在現實中,我們可能面臨的是時機決策。我們或許可以通過放慢 AGI 的開發或推遲其部署,讓進一步的對齊研究(及其他預防措施)降低災難性失效的風險,從而使 AGI 變得更安全。這引入了一種新的權衡。較早啟動意味著接受較高水平的 AI 風險;較晚啟動則意味著延長人們繼續死於普通原因並依然容易受到其他背景危險威脅的時期。
這反映了前文引入的醫學類比。患者可能會推遲一項高風險手術,希望出現更安全的方法,但等待會讓他們暴露在潛在疾病的持續風險中(並推遲了享受改善後的健康狀態)。
為了將這一想法形式化(詳見附錄 A),我們假設在 AGI 之前,個人面臨恆定的死亡風險 $m_0$;在成功啟動後,該風險降至低得多的值 $m_1$。我們還假設,如果 AI 在時間 $t$ 啟動,隨著安全性工作的推進,災難性失效的機率會逐漸下降。核心問題變成了:為了額外的安全性進展,值得等待多久?
表 3 顯示了在不同的初始 AGI 風險水平和通過進一步安全性工作降低風險的(相對)速率假設下的代表性「最佳等待時間」。我們納入了一些對於初始 Pdoom(在 $t=0$ 時)和安全性進展速率可能不切實際的極端值,以了解可能性的完整空間。
表 3:各種初始風險和安全性進展速率下的最佳延遲
| 安全性進展 | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 無進展 (0%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 永不 |
| 極慢 (0.1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 等待 16.9y | 等待 58.1y |
| 非常慢 (1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 等待 14.3y | 等待 14.3y | 等待 35.5y |
| 中等 (10%/yr) | 立即啟動 | 立即啟動 | 等待 8.1m | 等待 9.4y | 等待 13.8y | 等待 15.5y | 等待 15.9y |
| 快速 (50%/yr) | 立即啟動 | 等待 6.8m | 等待 2.6y | 等待 3.9y | 等待 4.6y | 等待 4.8y | 等待 4.9y |
| 非常快 (90%/yr) | 立即啟動 | 等待 8.2m | 等待 1.3y | 等待 1.7y | 等待 1.9y | 等待 2.0y | 等待 2.0y |
| 極速 (99%/yr) | 等待 1.7m | 等待 5.9m | 等待 9.5m | 等待 11.9m | 等待 1.1y | 等待 1.1y | 等待 1.1y |
我們觀察到一個清晰的模式。當初始風險較低時,最佳策略是儘快啟動 AGI——除非安全性進展異常迅速,在這種情況下,短暫延遲幾個月可能是合理的。隨著初始風險增加,最佳等待時間會變長。但除非起始風險極高且 安全性改進緩慢,否則首選的延遲通常是適度的——通常是個位數的年數。圖 1 進一步說明了這一情況,顯示了跨參數空間的等延遲輪廓線。
有趣的是,極快和極慢的安全性進展速率都傾向於較早 啟動。在快速進展的情況下,風險下降得非常快,因此不需要等待太久。在緩慢進展的情況下,等待帶來的好處微乎其微,因此最好儘早行動——趁許多人還能獲得潛在收益時。正是中等到緩慢的進展速率產生了最長的最佳延遲:慢到足以讓安全性改進只能逐漸累積,但又快到足以讓等待依然能換取一些好處。(還有一個極端情況:如果初始風險極高且安全性改進微不足道或根本不存在,模型建議永遠不要啟動。)
如果我們用品質調整生命年(QALYs)而非原始生命年來衡量結果,在大多數情況下我們會變得更加急於啟動。然而,在當前模型中,這種影響是適度的。減少死亡率至健康 20 歲年輕人水平的前景已經主導了權衡,使得 AGI 前短暫時期的價值相比之下相對微不足道。驅動結果的是 AGI 到來前死亡的風險與啟動出錯導致死亡的風險之間的平衡。
圖 1:等延遲輪廓線(參見表 3)
時間貼現
到目前為止,我們假設未來的生命年無論何時發生都具有同等價值。在實踐中,決策者通常會應用時間貼現率,這會降低對發生在更遙遠未來的利益的權重。有時包含在經濟貼現率中的各種務實因素在這裡可以撇開不談。例如,我們不應使用貼現率來解釋我們可能更傾向於在生活中提前獲得好處,理由是如果延遲到遙遠的未來我們可能不在世享受(因為我們正在單獨對死亡風險建模)。但決策者有時被認為還具有「純粹時間偏好」,即他們單純地對發生在更遙遠未來的事情關心較少,這就是我們在這裡要檢視的。
貼現削弱了為成功 AGI 可能帶來的巨大長期壽命延長而「衝刺」的動力。獲得數百年預期壽命的巨大好處不再以其全部量級被估值;而很快死亡的風險——無論是來自失調的 AGI 還是來自當前的背景危害——則幾乎保持全權重。因此,引入貼現率會將最佳啟動日期推遲。
表 4 說明了 3% 的年度貼現率對最佳 AGI 時機的影響。(技術細節見附錄 B,以及其他貼現率的結果。)
表 4:3% 年度貼現率下的最佳延遲
| 安全性進展 | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 無進展 (0%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 永不 | 永不 | 永不 | 永不 |
| 極慢 (0.1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 等待 142.3y | 等待 612.0y | 等待 783.8y | 等待 825.0y |
| 非常慢 (1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 等待 29.1y | 等待 75.8y | 等待 92.9y | 等待 97.0y |
| 中等 (10%/yr) | 立即啟動 | 立即啟動 | 等待 2.6y | 等待 11.3y | 等待 15.8y | 等待 17.4y | 等待 17.8y |
| 快速 (50%/yr) | 立即啟動 | 等待 7.5m | 等待 2.6y | 等待 3.9y | 等待 4.6y | 等待 4.9y | 等待 4.9y |
| 非常快 (90%/yr) | 立即啟動 | 等待 8.2m | 等待 1.3y | 等待 1.7y | 等待 1.9y | 等待 2.0y | 等待 2.0y |
| 極速 (99%/yr) | 等待 1.7m | 等待 5.9m | 等待 9.5m | 等待 11.9m | 等待 1.1y | 等待 1.1y | 等待 1.1y |
我們看到一些邊界案例從「立即啟動」轉變為「等待片刻」;而原本就值得等待的案例現在建議更長的延遲。更高的貼現率會放大這種效應:如果遙遠的未來不重要,那麼專注於確保近期的未來是有道理的。
生活品質調整
一個重要的希望是,開發超人工智慧不僅會延長壽命,還會讓生活變得更好。我們可以通過為 AGI 之前的生活分配品質權重 $q_0$,並為成功啟動 AGI 之後的生活分配更高的權重 $q_1$ 來對此建模。
表 5 顯示了在 AGI 後的生活比當前生活好兩倍($q_1/q_0=2$)且具有標準 3% 貼現率時的最佳時機。(詳見附錄 C 及進一步說明。)
表 5:最佳延遲:小幅品質差異 ($q_1/q_0 = 2$,中等貼現率 $\rho=3$)
| 安全性進展 | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 無進展 (0%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 永不 | 永不 | 永不 |
| 極慢 (0.1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 等待 122.2y | 等待 294.0y | 等待 335.2y |
| 非常慢 (1%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 等待 27.1y | 等待 44.2y | 等待 48.3y |
| 中等 (10%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 等待 6.7y | 等待 11.1y | 等待 12.8y | 等待 13.2y |
| 快速 (50%/yr) | 立即啟動 | 立即啟動 | 等待 1.9y | 等待 3.2y | 等待 3.9y | 等待 4.2y | 等待 4.2y |
| 非常快 (90%/yr) | 立即啟動 | 等待 5.7m | 等待 1.1y | 等待 1.5y | 等待 1.7y | 等待 1.8y | 等待 1.8y |
| 極速 (99%/yr) | 等待 12.8d | 等待 4.6m | 等待 8.2m | 等待 10.6m | 等待 11.8m | 等待 1.0y | 等待 1.0y |
我們可以看到,較高的 AGI 後品質擴大了「立即啟動」區域,並在等待為最佳的情況下縮短了延遲。
這種轉變的幅度是有限的,因為「立即啟動」的風險門檻——低於該水平則立即啟動為最佳的 AI 風險水平——是有上限的。這意味著品質效應會飽和:即使是無限大的品質提升也無法將所有情況推向立即啟動。因此,如果我們假設 AGI 後的生活比 AGI 前好 1,000 或 10,000 倍,這與較適度的品質提升水平相比不會有太大區別。直觀上,一旦 AGI 後的生活變得足夠吸引人(因為其長度和/或品質),AGI 前的生活對未來預期價值的貢獻就相對較小;此時主要的關注點就變成了最大化實際進入 AGI 後時代的機會——即權衡等待帶來的 AGI 安全性改進與等待過久導致在 AGI 之前死亡的累積風險。
有趣的是,時間貼現的影響可能會根據 AGI 前後品質差異的大小而反轉。當沒有品質差異時,較高的時間貼現率總是推動延遲啟動。然而,當品質差異足夠大時,急躁情緒會懲罰延遲成功超人工智慧後更高品質生活的開始;這會拉動較早啟動。因此,雖然貼現在純壽命模型中總是充當煞車,但在品質生活差距足夠大時,它會充當加速器。
邊際效用遞減
之前的模型依賴於線性價值假設——本質上將 1,400 年的壽命視為在主觀上恰好是 40 年壽命價值的 35 倍。然而,大多數人目前的實際偏好在品質調整生命年(QALYs)上可能表現出邊際效用遞減,這意味著例如,對於原本只有 30 年壽命的人來說,延長 10 年壽命被認為比對於原本有 1,390 年壽命的人來說延長 10 年更值得追求。這種偏好結構也可以被視為一種風險規避形式。很少有人會接受「正面」意味著剩餘壽命翻倍而「反面」意味著立即死亡的硬幣投擲——即使我們引入適度的甜頭(如 10,000 美元的獎勵,或如果硬幣正面則額外增加一年壽命),他們也可能拒絕。
我們可以使用標準的收益遞減效用函數——恆定相對風險規避(CRRA)——來對此建模,該函數引入了一個曲率參數 $\gamma$,代表風險規避程度。隨著該參數增加,決策者變得更加保守,在將當前生命押注於一場變革之前,需要更高的成功機率(或更大的潛在好處)。
表 6 顯示了 $\gamma=0.26$ 的結果,這是從實證健康經濟學文獻中得出的典型值。其他參數與前一節相同。(詳見附錄 D 及額外說明。)
表 6:邊際效用遞減 (CRRA, 中等速率)
| 安全性進展 | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 無進展 (0%/yr) | 立即啟動 | 立即啟動 | 立即啟動 | 立即啟動 | 永不 | 永不 | 永不 |
| 極慢 (0.1%/yr) | 立即啟動 | 立即啟動 | 等待 3.1d | 等待 1.9y | 等待 122.6y | 等待 294.0y | 等待 335.2y |
| 非常慢 (1%/yr) | 立即啟動 | 立即啟動 | 等待 4.2d | 等待 4.4y | 等待 31.7y | 等待 46.3y | 等待 50.1y |
| 中等 (10%/yr) | 立即啟動 | 立即啟動 | 等待 1.1y | 等待 8.4y | 等待 12.5y | 等待 14.1y | 等待 14.4y |
| 快速 (50%/yr) | 立即啟動 | 等待 4.4m | 等待 2.3y | 等待 3.6y | 等待 4.2y | 等待 4.5y | 等待 4.5y |
| 非常快 (90%/yr) | 立即啟動 | 等待 7.2m | 等待 1.2y | 等待 1.6y | 等待 1.8y | 等待 1.9y | 等待 1.9y |
| 極速 (99%/yr) | 等待 1.2m | 等待 5.4m | 等待 9.0m | 等待 11.3m | 等待 1.0y | 等待 1.1y | 等待 1.1y |
將此與表 5 比較,我們看到 QALYs 的邊際效用遞減導致了更為保守的方法:「立即啟動」區域縮小,最佳等待時間增加。這種效應在較早的日期最為強烈。(另見圖 2。)
圖 2:等延遲輪廓線(參見表 6)
表 7 顯示了如果在最佳時間啟動時的風險(使用與表 6 相同的參數設置)。
表 7:啟動時風險(針對同一模型)
| 安全性進展 | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| 無進展 (0%/yr) | 1.0% | 5.0% | 20.0% | 50.0% | 永不 | 永不 | 永不 |
| 極慢 (0.1%/yr) | 1.0% | 5.0% | 20.0% | 49.9% | 70.8% | 70.8% | 70.8% |
| 非常慢 (1%/yr) | 1.0% | 5.0% | 20.0% | 47.9% | 58.1% | 59.6% | 59.9% |
| 中等 (10%/yr) | 1.0% | 5.0% | 17.9% | 20.6% | 21.4% | 21.6% | 21.6% |
| 快速 (50%/yr) | 1.0% | 3.9% | 4.1% | 4.2% | 4.2% | 4.2% | 4.2% |
| 非常快 (90%/yr) | 1.0% | 1.3% | 1.3% | 1.3% | 1.3% | 1.3% | 1.3% |
| 極速 (99%/yr) | 0.6% | 0.6% | 0.6% | 0.6% | 0.6% | 0.6% | 0.6% |
與風險中立的代理人相比,這些啟動時風險值有所降低,但並非劇烈降低(除非在風險中立代理人永遠不會啟動或風險規避代理人會立即啟動的情況下,啟動時風險對兩者來說是相同的)。
變化的安全性進展速率
在到目前為止考慮的模型中,我們假設 AGI 可以在任何時間啟動,背景死亡率在啟動前保持不變,AI 安全性以恆定速率提高,並且除了穩步進展所暗示的信息外,沒有獲得關於系統安全性的證據。然而在現實中,我們尚未處於可以啟動完整 AGI 的位置;背景死亡風險在 AGI 可用時可能會發生變化;安全性進展的節奏在不同階段可能有所不同;我們或許可以運行測試,提供關於系統是否安全的直接信息。我們現在探討其中一些因素如何影響大局。
區分兩個時間變量是有幫助的:
$T_{agi}$:從現在起到完整 AGI 首次在技術上可部署的時間。我們將此期間稱為第 1 階段。
$T_{pause}$:在達到該點後,我們在全面部署前選擇的任何額外延遲——在 AGI 可用與大規模推廣之間刻意的暫停。我們將此期間稱為第 2 階段。
因此,啟動發生在時間 $T = T_{agi} + T_{pause}$。
原則上,人們可以嘗試同時選擇這兩個變量,以最大化預期的(貼現的、品質調整後的)生命年。在實踐中,$T_{agi}$ 可能較難受到顯著影響。它主要由實現 AGI 級別能力的內在技術難度,以及目前由激烈競爭動態驅動的投資選擇決定;而在某些情景下,$T_{pause}$ 可能更多地取決於公司領導者或政策制定者的刻意選擇,他們在那個關頭可能更專注於做出宏觀戰略上健全的部署決策。此外,正如我們將看到的,$T_{pause}$ 的相對較小變化在預期結果上產生的差異,可能比 $T_{agi}$ 同樣小的變化所產生的差異更大。
因此,在考慮對這兩個變量進行聯合優化之前,讓我們檢視一個只有 $T_{pause}$ 可供選擇的模型。這裡我們將 $T_{agi}$ 視為外生變量,並由情景給定(距離 AGI 可用還有 0、5、10 或 20 年)。我們保留前幾節的符號和參數,包括指數時間貼現和凹性效用(除非另有說明,兩者均取其「中等」值)。
這種多階段設置的一個關鍵特徵是安全性進展速率不必是恆定的。不同的開發階段提供了不同的進展機會,最容易解決的問題往往最先被解決。
在第 1 階段——完整 AGI 可用之前的時期——安全性研究人員必須在無法接觸到最終最重要的系統的情況下工作。他們可以研究前驅系統,開發理論框架,並設計看起來可能擴展的對齊技術;但實現完整 AGI 的確切演算法和架構仍然未知,這限制了可以測試或驗證的內容。因此,這一階段的安全性進展可能是適度的。
一旦獲得 AGI 就緒的系統,情況就會發生變化。在第 2 階段,研究人員可以研究實際系統,在受限環境中運行它,在受控條件下探測其行為,並可能利用系統自身的能力來加速安全性工作。這表明在 AGI 可用後立即會出現一波快速的安全性進展——這是因為終於擁有了實際的人造物而獲得的「安全性意外收穫」。
然而,這種快速增益不可能無限期持續。最有希望的干預措施會最先被探索,收益遞減最終會出現。這促使將第 2 階段分為不同的子階段:
第 2a 階段 :一個初始的極速安全性進展期。由於現在擁有了完整的系統,研究人員可以執行以前不可能的干預——塑造系統、在緩慢提升能力的同時探測失效模式,並在實際權重上實施監督機制。這個子階段很短(可能是幾週到幾個月),但效率極高。
第 2b 階段 :持續的快速進展,儘管比 2a 慢。最明顯的低垂果實已被採摘,但研究人員仍能從在實際系統上工作並輔以先進 AI 工具中獲益。這可能持續一年左右。
第 2c 階段 :進展放緩至與第 1 階段相似的速率,擁有實際系統的好處現在大致被易處理問題的枯竭所抵消。這個子階段可能持續數年。
第 2d 階段 :最終進展變得非常緩慢,由對對齊科學的基礎研究或開發定性上的新架構組成。這將無限期持續。
圖 3 說明了定性圖像。關鍵特徵是安全性進展在第 2 階段是前置的。
圖 3. 多階段模型中風險的定性圖像
為了具體化,表 8 顯示了八種不同情景下的最佳暫停時長。(詳見附錄 E。)
表 8:多階段模型:幾種情景
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ② | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 4.1y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 9.4m | 等待 1.3y | 等待 2.2y | 等待 5.0y | 等待 5.7y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 1.5m | 等待 3.6m | 等待 1.3y | 等待 3.0y | 等待 4.5y | 等待 4.9y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 1.2m | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 1.0y | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 11.1m | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 3.6m | 等待 3.6m | 等待 3.6m |
我們看到,對於廣泛的初始風險水平和安全性進展速率,最佳策略是在進入第 2 階段後實施短暫暫停。如果第 2a 和 2b 子階段可獲得的「意外收穫」顯著,最佳暫停通常以月或少數年計。超過該點後,進一步等待的安全性收益往往會被持續的死亡成本和時間貼現所抵消。
如果我們轉而考慮對 $T_{agi}$ 和 $T_{pause}$ 進行聯合優化——即決策者可以選擇第 1 階段持續多久(最高到每個預設情景給出的最大值),然後也選擇 AGI 能力達成後暫停多久——我們得到表 9 所示的結果。(為了便於比較,時間以相對於每個情景中「預設」啟動時間的方式表示,即如果第 1 階段既沒有加速也沒有隨後暫停的情況。例如,在情景 4 中,預設第 1 階段時長為 5 年,「等待 -3.7 y」意味著啟動發生在第 1 階段開始後的 1.3 年。同樣,「立即啟動」在這裡表示與之前相同的時間點,即第 2 階段預設開始的時刻。)
表 9:第 1 階段和第 2 階段的聯合優化
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ② | 0y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 4.1y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 -5.0y | 等待 -4.7y | 等待 -3.7y | 等待 -3.7y | 等待 2.2y | 等待 5.0y | 等待 5.7y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 -5.0y | 等待 -4.7y | 等待 -3.7y | 等待 -11.3m | 等待 3.0y | 等待 4.5y | 等待 4.9y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 -10.0y | 等待 -9.7y | 等待 -8.7y | 等待 -8.7y | 等待 -2.8y | 立即啟動 | 等待 8.6m |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 -10.0y | 等待 -9.7y | 等待 -8.7y | 等待 -5.9y | 等待 -2.0y | 等待 -5.6m | 等待 -1.3m |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 -20.0y | 等待 -19.7y | 等待 -18.7y | 等待 -18.7y | 等待 -12.8y | 等待 -10.0y | 等待 -9.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 -20.0y | 等待 -19.7y | 等待 -18.7y | 等待 -15.9y | 等待 -12.0y | 等待 -10.5y | 等待 -10.1y |
我們看到,在許多情景和許多初始風險水平下,如果決策者可以自由地對 AGI 開發時間和隨後的暫停進行聯合優化,那麼比預設情況更早啟動是最佳的:這些是藍色背景的單元格。(在情景 1 和 2 中,由於第 1 階段時長為零,加速是不可能的。)
此外,在一些情景中,儘管啟動發生在第 2 階段暫停一段時間後,但在第 1 階段進行某種程度的加速仍然是最佳的:這些是沒有藍色背景但有藍色邊框的單元格。這之所以會發生,是因為第 2a 和 2b 階段的風險降低速率比第 1 階段快。因此,在獲得 AGI 能力後、部署之前能夠暫停至少一小段時間具有特殊價值;為了收穫這些快速的安全性增益,同時仍保持 AGI 部署前的總時間在可忍受的短暫範圍內,值得在第 1 階段走得更快。
變化的死亡率
我們一直假設在 AGI 啟動前背景死亡率保持不變,但在 AGI 能力達成(但尚未全面部署)的前後,它是有可能發生變化的。
悲觀地看,隨著近 AGI(near-AGI)能力的引入,世界可能會變得更加危險。例如,專業化 AI 系統可能會擴散製造(新型且更致命的)生物武器的能力,使大規模自主無人機群成為可能,通過破壞我們個人或集體的認識系統和政治進程來引發混亂,或者以觸發重大戰爭的方式提高地緣政治賭注和緊迫性。
樂觀地看,人們可能希望近 AGI 系統能實現醫學突破,降低死亡率。然而,實質性的死亡率降低似乎不太可能迅速實現,因為許多醫學創新必須通過廣泛的臨床試驗,然後需要進一步的時間才能達到全球顯著的規模。當然,近 AGI 系統也可能產生許多其他積極影響;但除了可能的醫學應用外,它們似乎不太可能對平均死亡率產生巨大的即時影響,因為目前死亡的大多數人都是死於與年齡相關的和其他醫學問題。
因此,總的來說,如果在 AGI 變得可行的時候全球死亡率發生劇烈變化,它看起來更有可能是變差而非變好。這增加了在 AGI 能力(或開始具有危險應用的近 AGI 能力)達成後保持相對較短等待時間的理由。
然而,如果真的 出現了醫學突破——特別是有效的抗衰老療法——那麼啟動 AGI 的最佳時間可能會被大幅推遲。原則上,這種突破可能來自 AGI 之前的 AI 形式(或不需要全面部署的專業 AGI 應用),或者是獨立於 AI 發生的醫學進展。在 AGI 幾十年內都不會開發出來的長線情景中,這種發展更具可能性。
請注意,要產生這種效應,背景死亡率的改善並不一定非要在進入第 2 階段之前或立即發生。原則上,如果即將到來的死亡率下降變得可預見 ,最佳時間線就可能發生轉移;因為這會立即增加我們在啟動前條件下的預期 壽命。例如,假設我們確信在 5 年內(即使不部署 AGI),與年齡相關的衰退率將下降 90%。那麼支持更長的推遲可能是合理的——例如在 50 年後啟動 AGI,屆時 AI 安全性進展已將風險水平降至最低——因為屆時我們大多數人仍可預期活著。在這種情況下,50 年的額外 AI 安全性進展是以相當於在當前死亡率條件下等待不到 10 年的死亡風險這一「廉價」代價換取的。
表 10 顯示了假設進入第 2 階段後背景死亡率驟降至 $m_1$ 的影響——即對應於 1,400 年預期壽命的速率,與我們假設成功 AGI 將實現的速率相同。(其他參數與表 8 相同;我們這裡假設第 1 階段無法加速。)
表 10:部署前死亡率驟降至 1/1400(中等時間貼現)
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 1.1m | 等待 4.9m | 等待 1.3y | 等待 6.3y | 等待 18.0y | 等待 24.7y | 等待 26.4y |
| ② | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 1.1m | 等待 4.9m | 等待 3.3y | 等待 6.3y | 等待 8.9y | 等待 14.5y | 等待 15.9y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 6.3y | 等待 7.4y | 等待 13.6y | 等待 15.1y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 6.1y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.5y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 11.2m | 等待 1.3y | 等待 5.2y | 等待 6.3y | 等待 6.3y |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 9.8m | 等待 1.3y | 等待 1.3y | 等待 2.5y | 等待 3.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 1.3y |
我們看到最佳暫停時長變長了——但並非劇烈變長。影響相當有限的部分原因是安全性增益是前置的,在進入第 2 階段後很快就會出現收益遞減。另一部分原因是「中等」水平的時間貼現($\rho=3%$)主導了死亡率。
表 11 顯示了相同的情景,但採用「低」貼現率($\rho=1.5%$)。這確實導致了更長的等待時間,特別是在初始 AI 風險極高,以至於在第 1 階段和第 2a–c 階段大幅降低後,風險水平依然高得令人不安的情景中。
表 11:部署前死亡率驟降至 1/1400(低時間貼現)
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 3.6m | 等待 1.3y | 等待 5.1y | 等待 14.9y | 等待 33.8y | 等待 41.2y | 等待 43.0y |
| ② | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 3.6m | 等待 1.3y | 等待 6.3y | 等待 6.3y | 等待 22.5y | 等待 29.6y | 等待 31.3y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 6.3y | 等待 22.2y | 等待 29.4y | 等待 31.2y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 1.6m | 等待 4.6m | 等待 3.2y | 等待 6.3y | 等待 6.3y | 等待 7.8y | 等待 9.3y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 1.4m | 等待 3.7m | 等待 1.3y | 等待 6.3y | 等待 10.7y | 等待 17.7y | 等待 19.4y |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 6.3y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 6.3y | 等待 6.3y | 等待 6.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 1.1m | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 2.2y | 等待 2.6y |
因此,如果背景死亡風險大幅降低,那麼貼現率低的人會願意等待很長時間,以使 AI 風險降至極低水平。然而請注意,即使人們完全停止死亡,最終啟動 AGI 仍然可能是最佳的——事實上,只要存在顯著的生活品質差異、非零的時間貼現率,且 AI 安全性持續明顯改善,就不需要極長的延遲。
相比之下,表 12 說明了相反情景的情況,即進入第 2 階段後死亡率上升。不出所料,這縮短了最佳暫停時長。對於該表使用的參數設置——死亡率翻倍——影響相當適度。對於危險程度更大的提升,影響會更顯著。
表 12:部署前死亡率升至 1/20(中等時間貼現)
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 等待 2.9m | 等待 6.6m | 等待 1.3y | 等待 2.6y | 等待 5.0y | 等待 5.6y |
| ② | 0y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 等待 2.9m | 等待 6.6m | 等待 1.3y | 等待 4.8y | 等待 6.3y | 等待 6.3y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 1.3y | 等待 1.7y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 1.3y | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 3.6m | 等待 1.2y | 等待 1.3y | 等待 1.3y |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 5%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 3.6m | 等待 3.6m | 等待 1.1y | 等待 1.3y | 等待 1.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1.0y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 立即啟動 | 等待 3.0m | 等待 3.6m | 等待 3.6m | 等待 3.6m |
安全性測試
AI 安全性工作可以提供至少兩種類型的好處:首先,它可以改進 AI 系統的性質,使其在部署時不太可能造成災難性傷害;其次,它可以提供關於該性質的信息,以便我們更好地判斷是部署它,還是繼續努力使其更安全。之前的章節用單個參數(「AI 安全性進展速率」)對這兩種效應進行了建模。如果我們願意接受更複雜的設置,我們可以將它們分開處理。這導致了這樣一種模型:預先確定的不是最佳啟動時間,而是最佳策略 ,該策略根據當時可用的任何安全性信息來指定是啟動還是繼續工作和測試。
為了保持設置的可控性,我們將一個簡單的測試過程嫁接到前一節的多階段模型上。一旦 AGI 能力系統存在(第 2 階段開始),當時真正的災難機率是未知的:它可能是之前使用的七個初始風險水平(1%、5%、20%、50%、80%、95% 或 99%)中的任何一個。我們假設對這些可能性持有均勻先驗。安全性工作隨著時間推移降低潛在風險,遵循與之前相同的多階段時間表:第 1 階段進展適度,隨後(一旦 AGI 能力系統存在)是一個短暫的極速安全性改進期(第 2a 階段),一個稍慢但仍快速的階段(2b),一個中等進展階段(2c),然後是極慢進展的長尾(2d)。
安全性測試是由安全性進展而非時鐘時間觸發的。從 AGI 能力系統可用那一刻起,每當安全性工作將系統的內在災難機率相對於上次測試再降低 20% 時,就會執行一次新測試。這反映了這樣一個想法:開發信息豐富的測試本身就是安全性工作的一部分:隨著我們使系統更安全,我們也學會了如何更有效地探測它。如果測試時的潛在風險為 $p$,則測試以機率 $p$ 返回「失敗」,以機率 $1-p$ 返回「通過」。因此,具有極高內在風險的系統往往會反覆測試失敗,而相當安全的系統則大多能通過——即使其剩餘風險仍然很大。特別是,這些測試通常無法可靠地地區分例如 10% 和 20% 的啟動風險;它們更擅長將「明顯糟糕」與「非明顯糟糕」區分開來。
我們可以將此設置形式化為部分觀察馬可夫決策過程(POMDP),並進行數值計算得出最佳策略(詳見附錄 G)。表 13 顯示了預期延遲(從第 2 階段開始計算)。
表 13:定期安全性測試
| # | 第 1 階段 | 2a | 2b | 2c | 2d | 1% | 5% | 20% | 50% | 80% | 95% | 99% |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 0y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 1.4y | 等待 1.7y | 等待 2.7y | 等待 4.9y | 等待 7.3y | 等待 8.6y | 等待 8.9y |
| ② | 0y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 1.6y | 等待 2.0y | 等待 3.2y | 等待 4.8y | 等待 5.8y | 等待 6.1y | 等待 6.1y |
| ③ | 5y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 1.1y | 等待 1.2y | 等待 1.7y | 等待 3.1y | 等待 4.7y | 等待 5.3y | 等待 5.5y |
| ④ | 5y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 4.7m | 等待 6.6m | 等待 1.3y | 等待 3.1y | 等待 4.8y | 等待 5.4y | 等待 5.6y |
| ⑤ | 10y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 5.1m | 等待 6.1m | 等待 10.5m | 等待 1.8y | 等待 3.1y | 等待 3.7y | 等待 3.9y |
| ⑥ | 10y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 等待 3.9m | 等待 5.3m | 等待 9.2m | 等待 1.2y | 等待 1.5y | 等待 1.7y | 等待 1.7y |
| ⑦ | 20y 5%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 5%/y | ∞ 2%/y | 等待 3.9m | 等待 5.3m | 等待 9.2m | 等待 1.1y | 等待 1.3y | 等待 1.3y | 等待 1.3y |
| ⑧ | 20y 10%/y | 0.3y 70%/y | 1y 25%/y | 5.0y 10%/y | ∞ 2%/y | 立即啟動 | 立即啟動 | 等待 1.9m | 等待 3.4m | 等待 4.5m | 等待 5.2m | 等待 5.4m |
我們觀察到,在大多數情況下,最佳策略會導致預期的短暫(但大於零)延遲,以利用第 2a 和 2b 階段可獲得的快速安全性進展以及隨之而來的獲取更多關於系統風險信息。在進入第 2 階段時系統初始風險較高的情況下,等待時間會更長;而當情況並非如此時,最佳策略通常建議在一年或兩年內啟動。
請注意,表 13 不能直接與表 8(代表之前分析的多階段模型,與當前模型最相似的一個)進行比較。這是因為之前我們假設決策者知道系統的初始風險,而當前模型中代理人一開始對七個可能的初始風險水平持有均勻機率分佈。如果我們想精確指出測試帶來的差異,我們需要將其與一個基準進行比較,在該基準中代理人以同樣的不可知分佈開始,但沒有從安全性測試中獲得進一步信息。表 14 呈現了這種比較的結果。
表 14:安全性測試帶來的結果差異
| # | 平均啟動 (無測試) | 平均啟動 (測試) | $\Delta$ 等待 | 風險 (無測試) | 風險 (測試) | $\Delta$ 風險 | 效用增益 |
| :--- | :--- | :--- | :--- | :--- | :--- | :--- | :--- |
| ① | 3.90y | 5.05y | +1.15y | 22.9% | 20.6% | -2.2% | +3.58% |
| ② | 6.30y | 4.23y | -2.07y | 15.4% | 16.9% | +1.5% | +2.95% |
| ③ | 1.30y | 3.23y | +1.93y | 20.2% | 17.3% | -2.9% | +1.31% |
| ④ | 1.50y | 3.03y | +1.53y | 15.1% | 11.5% | -3.6% | +1.71% |
| ⑤ | 1.30y | 2.05y | +0.75y | 15.7% | 14.8% | -0.9% | +0.37% |
| ⑥ | 1.30y | 1.09y | -0.21y | 9.1% | 9.1% | +0.0% | +0.45% |
| ⑦ | 1.30y | 0.93y | -0.37y | 9.4% | 9.6% | +0.3% | +0.28% |
| ⑧ | 0.30y | 0.25y | -0.05y | 4.2% | 4.2% | +0.0% | +0.06% |
我們看到測試增加了預期效用,有時是通過縮短預期啟動時間,有時是通過降低預期啟動時風險。(預期效用增益在百分比上看起來相當小,這並不特別重要——這是由我們假設的測試頻率低和敏感度低,以及其他建模假設驅動的。在現實中,測試還可能通過引導未來的安全性工作轉向更具生產力的方向來提供價值。)
圖 4 進一步說明了安全性測試如何影響啟動時間。虛線表示在沒有安全性測試(但對初始風險水平持有不可知先驗)的情況下,八種情景中啟動發生的位置。實線顯示了帶有安全性測試的最佳策略的累積機率分佈。我們看到,安全性測試導致在測試反覆通過的世界中較早啟動,而在測試不斷失敗且後驗機率保持悲觀的世界中較晚啟動。
圖 4:有與無安全性測試下啟動時間的累積分佈函數
主要的啟示是,一旦系統安全性是不確定的,且未來的測試可能提供關於系統風險程度的信息,相關的對象就不是單個最佳啟動日期,而是根據證據進行調節的最佳策略。這樣的策略能做到固定延遲做不到的事情:當測試表明系統可能足夠安全時快速啟動,但當測試揭示危險跡象時延遲。然而,安全性測試的價值不僅取決於測試本身的品質,還取決於——至關重要的是——決策者是否願意且能夠讓部署決策真正對測試揭示的內容做出反應。
分配考量
我們從當前全球人口整體的角度分析了情況。然而,我們需要承認,超人工智慧的最佳審慎時機對每個人來說並不相同。
一個重要的分歧因素是人們的死亡率不同。老年人在現狀下面臨著在不久的將來死亡的更高可能性,而年輕健壯的人則可以忍受更長的延遲,而不會累積過高的在大事發生前去世的風險。
另一個因素是,那些目前生活品質較差的人,相比於那些目前享受著(在當前時代被視為)高生活水平的人,可以理性地接受更高的死亡風險,以換取體驗成功 AGI 將實現的巨大豐饒和繁榮的機會。
因此,不同人口群體之間在超人工智慧的最佳審慎時機上存在衝突。在其他條件相同的情況下,那些年老、患病、貧窮、受壓迫、痛苦的人——或者那些具有更高貼現率或對未來品質調整生命年具有更強凹性偏好的人——與在現狀下相對滿意和安全的人相比,應該更傾向於較早的 AGI 啟動日期。^([14] )
在公共政策文獻中,社會福利函數通常被設計為包含優先主義或平等主義的偏向,使得在其他條件相同的情況下,分配給處境最差者的福利提升比分配給處境較好者的同等幅度提升具有更高的理想性。^([15] ) 如果給予處境較差者這種優先權,並將此規定與前述關於不同群體審慎利益分歧的觀察相結合,可能會對 AI 時間線的全球最佳選擇產生影響。
特別是,在優先主義觀點下,超人工智慧的最佳時間線可能比在(受人影響的)中立功利主義立場下更短。這部分是因為處境較差的人在玩這場骰子遊戲中損失較少而收益較多。部分是因為在病患和老人的情況下,他們等待並在以後賠率可能更有利時玩骰子的能力較弱。因此,存在一個優先主義論點,支持將時間線加速到超出前述分析所建議的程度。
讓我們更仔細地檢視這些問題。人們可能會有的一種想法是,低收入國家較年輕的人口結構會削弱上述支持較短時間線的優先主義論點,因為這在處境較差與擁有較長剩餘預期壽命之間引入了相關性——因此發展中國家的窮人與富裕國家的富人相比,在審慎利益上會傾向於較長的 AGI 時間線。然而,儘管窮國的人口偏向年輕,這並不足以彌補富國普遍較高的預期壽命。富國和窮國之間的出生時預期壽命差異——在比較最富和最窮國家時可能超過 25 年——在以剩餘年數的人口加權平均值計算時會顯著縮小,這是由於較窮國家的年輕人口結構。然而,這種差異並未消除,更不用說反轉了。^([16] ) 雖然可以預期窮國和富國之間的預期壽命在窮國現有人的餘生中會發生某種程度的趨同,但平均而言,目前經濟不幸的人在預設條件下仍可預期比目前經濟幸運的人更早死亡。貧困與較短剩餘預期壽命之間的這種正相關加強了支持更快時間線的優先主義理由(與前幾節不考慮分佈的分析相比)。
人們也可以將壽命本身視為一個人幸運程度的一個貢獻因素,因此——在優先主義觀點下——視為他們在社會規劃背景下對邊際資源或邊際利益權重擁有多強主張的一個因素。關於與壽命相關的變異如何被視為影響某人的基準福利水平,有幾種不同的可能方式:
i. 剩餘生命年 。人們可能認為(在其他條件相同的情況下),剩餘生命年較多的人比剩餘年數較少的人處境更好,因為處於即將生病死亡的狀態似乎是不幸的。
如果採用這種立場,那麼向較短時間線傾斜的優先主義偏向將被放大。這是因為老年人——其利益傾向於較短的時間線——將被這一指標賦予更重的權重,因為在現狀下該指標會判定他們相對不幸。
ii. 已擁有的生命年 。人們可能認為(在其他條件相同的情況下),活得較久的人處境更好,理由是他們已經更多地享用了生命。
如果採用這種立場,那麼優先主義偏向將被拉向有利於較長時間線的方向,因為 (ii) 所暗示的指標會傾向於認為老年人處境較好,因此不值得獲得太多的邊際考量。這不一定會拉得足夠遠,以至於讓優先主義在考慮到所有因素後比中立(非優先主義)標準更傾向於較長的時間線,因為除了年輕人(假設的)之外,還有其他類別的處境糟糕的人,他們的利益可能從較短的時間線中獲得差異化的好處。
然而,無論如何,(ii) 似乎是一種錯誤的估算方式。考慮兩個人,一個 10 歲,一個 20 歲,兩人都患有一種遺傳病,除非接受治療,否則都會在 30 歲死亡——如果接受治療,則能活到 50 歲。目前只有一劑藥物可用。主張 10 歲的孩子因為活得不如 20 歲的孩子久而對療法擁有更強的主張,這似乎是不合理的。更合理的主張是他們的主張同樣強——或者,如果不是這樣,那麼或許 20 歲的孩子擁有更強的主張(如 (i) 所暗示的)。
捕捉可能支持 (ii) 的直覺的一種更合理方式是:
iii. 總生命年 。人們可能認為(在其他條件相同的情況下),總壽命較長的人處境更好,因為他們的生命賦予更豐富。
這將賦予前述例子中的 10 歲和 20 歲孩子同等的權重,因為他們的基準壽命長度相同。當與優先主義倫理相結合時,立場 (iii) 會導致對那些在預設條件下生命較短的人的利益給予更大的權重。
那麼,在沒有 AGI 的情況下,誰的生命會更短:老人還是年輕人?一方面,老人已經在所有過早奪走生命的危險中倖存下來。另一方面,年輕人可以預期從未來幾十年的經濟和醫療進步中獲益,這可能會延長他們的壽命。如果我們推算富裕國家近期預期壽命的增長率,我們可能會得到一條 U 型曲線:年輕人和最年長的人擁有最長的總預期壽命,最低點出現在 80 歲左右的人群中。(直觀上:百歲老人已經活得比新生兒可能活的時間還要長,而兒童相對於四十多歲的人具有優勢,因為兒童極有可能活到四十歲,然後從額外四十年的醫學進步中獲益。)由於年齡大幅小於 80 歲的人遠多於年齡大幅大於 80 歲的人,這意味著青春與總預期壽命之間存在正相關。因此,(iii) 導致了對富裕國家年輕人利益的總體優先主義權重下調。這將縮短 AGI 的最佳時間線。然而,在窮國,由於嬰兒死亡率高,情況可能更複雜:新生兒的預期總壽命較低;年輕成年人較高;年長成年人較低;而極老的人較高。在缺乏詳細定量分析的情況下,尚不清楚這如何加總。
如果預期在沒有 AGI 的情況下,從現在起 $x$ 年後將發生激進的壽命延長突破,使人們能活得非常久,例如兩百歲(甚至達到長壽「逃逸速度」),那麼就會引入一個不連續性,即根據 (iii),那些在沒有 AGI 的情況下活不到 $x$ 年的人,比那些在沒有 AGI 的情況下還有超過 $x$ 年壽命的人要不幸得多。那些在沒有 AGI 的情況下剩餘壽命不足 $x$ 年的人,其利益在優先主義社會福利函數中將被上調權重。這將增加向較短時間線轉移的趨勢,假設 $x$ 在至少相當一部分目前活著的人的壽命範圍內。
請注意,這些來自對總預期壽命較短者——或剩餘預期壽命較短者,如果我們採用立場 (i)——的優先主義權重上調所產生的效應,是額外於直接源自生命年(或 QALYs)邊際效用遞減而產生的、為壽命較短者增加生命年的額外好處。換句話說,將額外的一年生命給予短壽者而非長壽者有兩個 可能的理由,這類比於將一百美元鈔票給予窮人而非富人的兩個可能理由:第一,窮人可能從這一百美元中獲得更大的邊際效用;第二,窮人整體上比富人處境更差,因此——根據優先主義倫理——對邊際利益擁有更強的主張(以至於即使我們假設富人會從這一百美元中獲得同樣大的好處——也許他們沒帶現金且需要打車回家——將其給予窮人仍然更好)。
關於生命年代學如何成為優先主義權重因素,還有另一種可能的立場,即存在某個特定的生命年數——例如傳統的「七十歲」——使得一個人早於該年齡死亡是糟糕的,但活得超過該年齡並不會顯著更好。類比可能是人類就像一個容量有限的杯子,一旦裝滿了生命,繼續傾倒就沒有價值了。
iv. 滿杯 。人們可能認為,一個人在大約七十歲之前死亡是不幸的,但活得遠超七十歲的人並不會因此處境顯著更好,因為他們已經擁有了完整的生命。^([17] )
這種立場將產生四個相關的影響。首先,它會降低 AGI 成功的價值,因為部分假設的好處是由遠超目前人類典型壽命的(指數時間貼現的)價值組成的。(然而,好處的另一部分——生活品質大幅改善的前景——仍將保持重要。)其次,它會使優先主義偏向轉向有利於年輕人,因為他們在預設的 AGI 前條件下不保證能達到老人已經達到的「滿杯」生命年數,從而使年輕人被視為更不幸,進而賦予他們的利益(傾向於較長時間線)更大的權重。第三,它會增加年輕人在早期 AGI 啟動中的下行風險,因為——除非風險已降至相當低的水平——AGI 啟動可能會放大年輕人無法達到其正常分配年數的威脅。第四,由於這種增加的下行風險排他性地針對年輕人,而根據 (iv),老人從 AGI 啟動中幾乎沒有什麼可失去的,因為他們已經安全到家了,這將使優先主義的關注點進一步向有利於年輕人利益的方向傾斜。其結果將是,如果採用「滿杯」立場,最佳 AGI 時間線將變得顯著更長。
然而,即使「滿杯」立場可能具有某種表面上的吸引力,支持它的直覺很可能——至少在很大程度上——根植於將生理年齡與偶然相關的年齡狀況混為一談。在當代環境下,老年與多病、能力下降、孤獨、疼痛、自主權喪失、負擔感以及黯淡的前景聯繫在一起。在那些條件下 ,額外的生命年對許多人來說吸引力有限,這不足為奇。^([18] ) 這可能導致人們相信七十歲(或該範圍內的某種「正常壽命」)就是我們在生命年效用函數中達到最大值所需的全部。但這充其量只能說明,在目前的情況下,我們從活得遠超該年齡中獲益甚微。在其他情況下,我們可能會獲益良多。特別是,如果 AGI 突破能夠恢復充分的健康和青春活力,並恢復甚至加強我們之前失去的能力——並拉開長久持續生存的帷幕,與同樣可以預期長久相伴的朋友和家人一起,在一個正在迎來新時代、比任何早期時代都無比豐富、更有希望且充滿奇蹟的世界中——那麼 ,為什麼僅僅因為某人出生後已經過去了七十年,額外的生命年對他來說就停止了價值?在這樣的情景中,我們難道不更願意都像孩子一樣——面前的潛力極大地超越了我們相對微不足道的過去?
這表明我們應該拒絕將「滿杯」立場作為一項基本的評估原則,並特別拒絕將其應用於變革性 AI 的背景下,因為在該背景下,許多通常的老年生命年條件被規定為不存在。同樣值得注意的是,即使在目前(通常非常糟糕)的條件下,那些似乎最適合判斷老年持續生命價值的人——即那些實際處於該狀況並擁有第一手知識的人——也經常否認這種立場,並對繼續活著賦予很高的價值。例如,在一項針對 80 歲以上住院患者的多中心研究中,超過三分之二的人願意為了「極佳的健康」而放棄剩餘一年中最多一個月的時間。^([19] ) 代理決策者系統地低估了他們不願以時間換取健康的程度。當一年後仍然活著的患者再次被問及同樣的問題時,他們願意以更少的時間換取比基準線更好的健康。
我們專注於與 AGI 開發何時 發生相當直接相關的分佈考量。當然,在 AGI 背景下還會出現許多其他潛在重要的分佈考量。例如,領先開發 AGI 的國家的公民可能比其他國家的公民受益更多;直接參與成功 AGI 啟動的個人可能獲得不成比例的利潤和榮耀。雖然「誰」和「如何」可能以各種方式與「何時」相關聯,但這些更廣泛的分佈問題超出了本文的範圍。
以他人為中心的審慎關注
如果我們擴大對什麼可能符合個人審慎利益的構想,將他們強烈關心的其他人的福利納入其中,就會出現一組不同的考量。例如,雖然超人工智慧很快啟動可能符合一位老人的狹隘自我利益,但他們可能更傾向於稍微延遲啟動,因為他們也關心他們的孫輩,而孫輩在 AGI 前的預設條件下擁有比他們自己長得多的剩餘預期壽命。
然而,如果我們考慮這類偏好,我們也應該考慮相反方向的偏好:年輕人雖然就自己而言可能從較長的時間線中獲益,但可能更傾向於稍微縮短時間線,因為他們關心那些更接近死亡的人。正如我們可以愛我們的孩子和孫輩一樣,我們也可以愛我們的父母和祖父母。因此,這種類型的親屬關懷在總體上可能大致抵消。
關於關心我們的朋友(或仰慕的陌生人),某人的年齡與關心他們的人數之間的相關性同樣不明確。極老的人可能關心他們的人較少,因為他們的許多朋友已經去世;但極年輕的人關心他們的朋友也可能較少,因為他們還沒見過很多人或相識不久。
在優先主義觀點下,將以他人為中心的關注納入我們的審慎利益可能會引發向較長時間線的輕微轉移。假設我們假設年輕人和老年人之間具有對稱的平均關懷程度。進一步假設,平均而言,老年人在預設條件下比年輕人處境更差(因為他們的剩餘和總預期壽命較短);因此優先主義估算會上調老年人的利益權重以確定最佳社會政策。那麼對老年人利益的優先主義權重上調意味著老年人所關心的人的利益也獲得了額外的權重(相對於如果我們不將以他人為中心的關注納入對某人審慎理想狀態的構想中所獲得的權重)。由於平均而言,老年人關心的人比他們自己年輕,這會將一些重點轉移到年輕人身上,而年輕人的利益是由較長的時間線服務的。然而,任何此類效應都是非常細微且二階的。
次優理論
到目前為止,我們以一種抽象的方式分析了超人工智慧的最佳時機問題(從受人影響的視角)——就好像世界有一個對應不同日期的旋鈕,而你的工作就是將其轉到正確的設置。在現實中,情況更為複雜。沒有人能完全控制 AGI 的時間線,且不同的行為者有不同的偏好。理想的時機可能無法實現,或者只能通過那些極有可能使時機變得比原本糟糕得多的方法來實現。此外,旨在影響超人工智慧何時到來的干預措施除了對時機的影響外,還可能產生其他重要的後果。出於這些原因,雖然前面的討論強調了一些相關的背景考量,但它本身並不暗示特定的政策建議。
雖然全面的政策分析需要納入許多超出本文範圍的事實和論點,但簡要列舉 AI 暫停或爭取此類暫停的努力可能產生不良影響的一些方式可能是有用的(除了單純推遲成功 AGI 可能帶來的利益之外):
暫停發生得太早。人們得出結論認為它是毫無意義的,並在以後本可以發揮作用的時候變得不願意暫停。
呼籲暫停導致了設計不當或不完整的監管,產生了「安全性劇場」,增加了成本和官僚主義並減緩了有用的應用,卻對降低真實風險毫無幫助。合規和勾選清單擠占了降低風險的實質性工作。
實施了暫停,但它旨在阻止的開發活動依然在繼續——只是在其他地方。工作可能轉入地下,或轉向不那麼謹慎的行為者或不那麼合作的國家。
暫停對國家安全有豁免,將 AI 活動從民用領域推向軍用領域。結果可能是更加強調破壞性用途、降低透明度和民主監督、放大 AI 輔助的政變風險或權力集中風險,且對齊努力可能更不專業。
有人呼籲暫停但未被理會——且沒有發生災難。那些警告危險的人信譽受損,使得未來呼籲 AI 安全性工作的聲音更難被認真對待。
推動暫停凸顯了該技術的戰略重要性,加劇了地緣政治 AI 競爭。
達成了一項關於暫停的國際協議,但這創造了一個囚徒困境,其中一些參與者作弊(將開發推向秘密計劃),或者當一些國家指責其他國家作弊時引發地緣政治衝突。
實施了暫停,導致經濟衰退、普遍悲觀以及對未來希望的降低。人們更多地將世界視為對有限資源的零和博弈,增加了衝突和部落主義。
暫停延長了世界暴露在已開發水平的 AI 應用危險中(以及獨立於 AI 的風險)的時期,而更先進的 AI 本可以幫助減輕這些危險。
為了強制執行暫停,建立了一個強大的控制機制。未來向更極權的方向轉移。
AI 開發暫停了,但硬體和演算法開發的進展仍在繼續。當暫停最終解除時,會出現巨大的算力和/或演算法積壓(overhang),導致 AI 發生爆炸性進展,這比 AI 在整個過程中以更穩定的速度推進風險更大。世界也將失去從與較弱 AI 系統共處中學習和適應的機會。(或者在更極端的情況下,暫停一直持續到危險模型或超人工智慧可以在消費級硬體上實現,使其變得無法治理。)
為暫停而進行的煽動導致了極端主義。一些人變得激進或暴力。對 AI 的態度變得極化,以至於難以進行建設性對話,並破壞了機構通過細緻的適應性安全性政策的能力。
推動暫停激發了 AI 支持者的反擊。領先的 AI 公司和 AI 權威機構聯手淡化風險,邊緣化關注 AI 風險的 AI 安全性研究人員和政策專家,減少他們的資源和影響力。
暫停最初被宣傳為允許社會調整和安全性工作趕上的短暫延期,卻僵化為事實上的永久禁令,阻止了超人工智慧的巨大承諾被實現——或者在沒有正式永久化的情況下被無限期延長。^([20] )
當然,呼籲引發暫停也可能帶來一些潛在的積極副作用,即使它們未能實現主要目標。例如,它們可能導致 AI 安全性工作資金的增加,作為暫停的一種更可接受的替代方案,或者總體上刺激世界更認真地為 AGI 做準備。儘管如此,暫停或推動暫停可能產生事與願違的後果的方式有很多,且相當具有可能性。
暫停或延遲的潛在好處和壞處特徵取決於實施機制和發生的背景。我們已經提到,如果暫停發生在後期,其安全性收益似乎可能大得多——理想情況下,是在具備 AGI 能力、甚至是一個完全實現的系統之後,但在最大規模擴展或普遍部署之前;因為額外的安全性測試、監督和最終調整時間在該階段可能特別具有影響力。暫停的範圍和誘導暫停的因果過程也是相關的。考慮以下案例:
領先者單方面消耗領先優勢 。在 AGI 變得可行的時候,一個開發者可能相對於其競爭對手擁有技術領先地位。它可能選擇消耗部分或全部領先優勢來實施額外的預防措施,同時保持領先。這種類型的暫停相對具有吸引力,因為它產生上述許多副作用的風險較小。它不依賴於建立監管機制或執法體制,且不太可能導致永久放棄超人工智慧。暫停是自我限制的,因為一旦競爭對手趕上,它就會過期。如果採取額外安全性預防措施的理由非常清晰且強大,該競爭對手也可能被說服同意停止(無論是單方面還是與領先者協調,可能在政府的推動下),從而延長其持續時間。但最終,隨著更多競爭對手達到相似的能力水平,暫停會自然過期。然而,在高度競爭的環境中,這種暫停的空間會縮小。目前尚不清楚誰領先;且無論他們擁有什麼領先優勢,都是以少數幾個月來衡量的。
政府強制執行的延期 。這引入了我們列出的更多潛在失效模式和副作用。官僚化、軍事化、自我政變等風險增加。暫停的最大持續時間被延長,且存在暫停時間超過應有時間的更大風險。政府行動是如何產生的很重要:如果是技術官僚務實主義的結果,其變得過長或永久化的風險低於如果是由於將超人工智慧概念本身污名化的普遍政治反 AI 動員的結果。與其完全延期,不如制定監管規定,僅在達到安全性標準時才允許開發和部署 AGI——這在理論上可能優於完全禁令,但在實踐中可能難以精確指定合理的標準。
國際商定的禁令 。由於這涉及國家干預,它會引入政府強制延期的許多失效模式。如果國際協議禁止所有新前沿系統的開發,並包括有效的核查條款,它可能會避免一些在具有國家安全應用豁免的個別政府強制延期情況下可能被放大的風險(如軍事化和自我政變)。其他風險會被放大,特別是延期僵化為永久放棄先進 AI 的風險,因為在嚴格執行的全球體制下,AI 開發將無處繼續。執法體制本身也可能帶來最終導致某種全球極權系統的風險。然而,如果沒有嚴格的全球執法,我們將面臨選擇效應的風險,即 AI 開發在拒絕加入的最不合作國家或由背叛簽署國運行的秘密計劃中繼續。對安全性標準或短暫暫停的更有限國際協議可能會降低其中一些風險:例如,如果美國和中國的 AI 項目在即將開發出危險 AI 系統時並駕齊驅,可能幾乎沒有單方面暫停(「領先者消耗領先優勢」型)的機會;但一些務實的合作可能是可能的,雙方同意在有限的時間內暫停大型訓練運行(可能帶有核查條款,讓檢查員確認其最大的 AI 中心處於閒置狀態),以便在恢復之前有額外的時間解決關鍵的安全性問題。
這些僅僅是示意圖。在現實中,政策制定者將面臨更複雜且具質感的選項,受制於許多實際約束,且其中對 AI 時間線的影響只是許多需要納入決策考量的後果之一。雖然某些變量可以提前進行抽象分析,但許多基本背景只有在事態發展過程中才會顯現,並需要持續的判斷調適,以使政策適應不斷變化的形勢。
對最佳 AI 時間線的分析不僅與是否引發 AI 暫停的問題相關,也與其他可能影響 AI 開發和部署節奏的政策選擇相關。例如,晶片出口限制、對數據中心的徵稅,或使裁員變得更難的僱傭法,都是可能主要出於 AI 時間線影響以外的原因而被提議或拒絕的措施。儘管如此,它們在邊際上可能會延緩 AI 的進展;因此,在評估此類政策時,了解該影響是理想還是不理想將是有用的。
結論
我們從受人影響的視角檢視了超人工智慧的最佳時機,側重於世俗考量,將玄奧考量和非個人視角留待未來工作。這裡的一個基本點是,基準線並不安全——不僅因為除了 AI 之外還有其他災難性風險,還因為在現狀下個人患病和死亡的比例很高。開發超人工智慧的恰當類比不是俄羅斯輪盤,而是為了一種若不治療則會致命的嚴重病症而接受手術。
一個簡單的啟動/不啟動模型說明了,如果對齊的超人工智慧能實現重大的壽命延長和生活品質改善,那麼就品質調整預期壽命而言,即使是非常高水平的 Pdoom 也值得承擔。
請注意,這裡的 Pdoom 指的是 AI 導致人類滅絕的機率。^([21] ) 考慮到上述假設,失調的超人工智慧最高可容忍機率甚至可能更高——很可能高達 100%——因為遠非確定如果部署了失調的超人工智慧,所有人類都會死亡。^([22] )
隨後,我們探討了一系列模型,其中決策者擁有更豐富的選項集,涉及何時 部署超人工智慧,而不僅僅是在立即部署或永遠不部署之間進行二元選擇。等待可以通過安全性進展降低災難性風險,但會產生持續死亡和放棄(或時間貼現)利益的成本。一個穩健的定性模式顯現出來。只有當初始風險極高且 安全性進展落在特定的中間範圍內時,長久等待才是合理的——進展快到足以讓等待產生有意義的風險降低,但又慢到足以讓工作無法迅速完成。在這一結合點之外,最佳延遲往往是適度的。
各種穩健性檢查在可預測的方向上移動了建議,但沒有推翻基本結果。單純增加時間貼現會通過降低遠期利益的權重將啟動推遲,儘管除非貼現率極高,否則它很少產生非常長的延遲。增加生活品質提升會將啟動提前,儘管這種效應會飽和:一旦 AGI 後的生活足夠吸引人,AGI 前的生活對預期價值的貢獻就微乎其微,主要的關注點就變成了單純地到達 AGI 後時代。當存在生活品質提升時,時間貼現的影響可能會反轉:對於足夠大的生活品質差異,時間貼現會推動較早啟動,因為急躁情緒會懲罰延遲該更高品質生活的開始。最後,品質調整生命年的邊際效用遞減使決策者變得更保守,縮小了立即或早期啟動為最佳的區域——但即使是實質性的風險規避也不會從根本上改變大局。
隨後引入了一個更精細的模型,該模型具有兩個時間變量:直到具備 AGI 能力的時間(第 1 階段,可能主要由技術難度驅動),以及一旦具備能力後在全面部署前的任何刻意暫停(第 2 階段)。這很重要,因為安全性進展速率在不同階段不太可能是均勻的。一旦存在可部署的系統,就可能出現「安全性意外收穫」——能夠研究、探測和壓力測試實際的人造物,並利用其自身能力來加速對齊工作。然而,隨著最易處理的問題被解決,這種增益面臨收益遞減。結論是,第 2 階段早期的時間比早期或晚期的等量時間能換取更多的安全性。多階段模型通常建議在具備 AGI 就緒系統後進行短暫但非零的暫停——幾個月或少數幾年。
AGI 能力達成時的背景條件也很重要。如果近 AGI 系統通過生物武器擴散、自主武器、認識腐蝕或地緣政治升級使世界不穩定,等待的成本就會上升,有利於短暫且有目的的能力達成後暫停。相反,重大的非 AGI 死亡率降低——特別是有效的抗衰老療法——將降低等待成本,使更長的推遲可能成為最佳選擇。
我們還考慮了多階段模型的一個變體,其中系統風險是不確定的,且測試可以提供信息。這將評估對象從最佳啟動日期 轉變為最佳策略 :當證據看起來足夠有利時啟動,否則延遲。安全性測試可以縮短或延長預期等待時間,並可以增加或減少啟動時風險,但在任何一種情況下都會增加預期效用。
審慎最佳時機因人而異。老人和病人在現狀下面臨更高的近期死亡率;生活品質差的人在向潛在 AGI 後豐饒過渡的過程中損失較少而收益較多。因此,年老、患病、貧窮或痛苦的人通常應該比舒適和安全的人更傾向於較早的啟動日期。如果政策納入優先主義權重,這會將全球最佳點向較短的延遲轉移。一些關於壽命的直覺——如「滿杯」概念,即大約七十歲以後的生命年貢獻的額外價值微乎其微——可能會推向相反的方向;但我們認為此類直覺在變革性 AI 背景下很可能是誤導性的,因為在該背景下,許多習以為常的因素(如老年的匱乏)不一定存在。
這些模型將時機視為一個簡單的旋鈕。在現實中,沒有人能完全控制;不同的行為者有不同的偏好;理想的時機可能無法實現;且旨在影響時間線的干預措施具有時機影響以外的後果。即使在抽象意義上,全面部署超人工智慧前的完美實施暫停是理想的,但在實踐中,拙劣的延期或其他減緩 AI 發展的努力可能以多種方式產生不良影響——例如,將開發轉移到監管較少的地方、增加軍事化、造成硬體或演算法積壓從而最終使 AI 過渡更具爆炸性,或者造成可能僵化為永久放棄的污名化和官僚化。
出於這些及其他原因,前面的分析——雖然它強調了幾個相關的考量和權衡——本身並不暗示支持任何特定的政策處方。如果儘管如此,人們仍希望將研究結果壓縮為一個可能的實際啟示,我們可以用這句話來表達:快馬加鞭至港口,緩步慢行至泊位 :快速推進至 AGI 能力,然後,隨著我們獲得更多關於剩餘安全性挑戰和具體情況的信息,準備好在我們導航規模擴展和部署的關鍵階段時可能放慢速度並做出調整。正是在那最後階段,短暫的暫停可能產生最大的收益。
參考文獻
(略,保持原樣)
附錄 A–G
(略,保持原樣)