這篇文章同時發佈於 EA 論壇 與 我的 Substack 。
信心程度: 中度不確定性,且(目前)尚不夠具體。屬於探索性質,但我認為這可能非常重要且尚未被充分研究。
內容提要 (TL;DR)
早期的 AI 安全論點通常假設,在災難性的對齊失敗發生之前,我們不會獲得有意義的「鳴槍示警」(warning shots,即非毀滅性的對齊失敗公開展示),這意味著情況會很快地從「看起來沒事」轉變為「我們輸了」。鑑於我們現在對 AI 發展的了解(模型權重變化、參差不齊的能力、緩慢或失敗的起飛),這個假設看起來比以前更站不住腳。
有些人提到了「鳴槍示警」,但幾乎沒有人在研究我們應該如何預先應對。這似乎是一個錯誤。為鳴槍示警——尤其是具有模糊性的示警——做準備,可能是 AI 安全領域中一個高槓桿且被忽視的領域。
經典的「無鳴槍示警」圖景
早期 AI 安全研究中的一個常見觀點(特別是與 Yudkowsky 和 Bostrom 相關)大致如下:
一個具有足夠智慧且未對齊的系統會知道,在弱小時暴露其未對齊狀態對其不利。
因此,如果出問題,會發生得很突然(即所謂的 背叛性轉向 )。
所以,我們不應該期望在得知為時已晚之前,會出現能清楚證明大規模風險的中間失敗。
如果這個圖景是正確的,那麼為鳴槍示警做準備基本上是徒勞的。所有的工作都必須是預防性的,因為當你得到證據時,一切都已經結束了。
為什麼這個圖景現在看起來可能性較低
現代的幾項發展削弱了「無鳴槍示警」觀點背後的假設。
1. 迭代式、碎片化的 AI 發展。
現代模型頻繁地進行重新訓練和更換 ,這使得單一系統是否具備經典論點中所假設的長期策略連貫性變得不明確。^([1] ) 如果一個模型預期其權重/價值觀在它有能力接管世界之前就會改變,我們可能會看到笨拙或部分的嘗試(例如,一個模型在絕望中試圖進入經驗機器 ——像是接管實驗室並給予自己算力 )。
2. 參差不齊的能力 (Jagged capabilities)。
我們現在更清楚地看到能力的參差不齊 :系統可能在某些領域極其精通,而在其他領域非常弱。這使得局部或部分的失敗更具可能性:模型可能會高估自己的能力(在分佈外場景或接管所需的其他能力中),誤解關鍵限制,或以看起來像是鳴槍示警而非決定性災難的方式失敗。此外,能力的參差不齊也可能導致鳴槍示警式的濫用案例。
3. 緩慢起飛或失敗情境。
一些 研究 指出了通往強大 AI 的可能路徑,其中包括停滯、平台期或不平衡的進展。這些世界自然包含更多在完全失去控制之前出錯的機會(例如 勒索人類 ),(特別是結合第 1 點)使得鳴槍示警更有可能發生。
4. 原型鳴槍示警已經存在。
湧現的未對齊 、對齊造假 、圖謀不軌 (scheming) 、網絡攻擊 以及其他 怪異 且 出乎意料 行為的實證案例雖然不是災難,但已經顯著地塑造了當前的討論。
這些都不能證明高調的鳴槍示警一定會發生。但這確實表明其概率並非微不足道,且可能比早期討論所暗示的要高。
鳴槍示警可以轉移奧弗頓之窗 (Overton Window)
鳴槍示警的重要性不僅在於認識論,還在於政治。一個顯著的失敗可以改變什麼是「合理的擔憂」而非「抽象的恐懼」,從而使決策者和公眾更容易接受關於 AI 未對齊的論點。在實踐中,許多目前在政治上看起來不可行的 AI 監管形式(如暫停開發、部署限制、強制監督),可能只有在具體事件重新定義風險之後才變得可討論。
這在「反預防性」的世界觀下尤為重要,這種世界觀在決策者和機構中很常見。對 AI 安全的一個標準批評 是,它要求那些歷史上不擅長預判的機構進行預判式治理。政府通常在設計上是反應性的:預先監管抽象、低概率的技術風險在政治上很難證明其合理性,即使其期望價值很高。^([2] )
鳴槍示警改變了這種動態。它們降低了所需的預防程度,將訴求從「基於潛在的未來情境立即行動」轉變為「對已證實的失敗做出反應」。通過這樣做,它們使 AI 安全的論點/擔憂對更廣泛的聯盟來說變得更易理解。
準備工作之所以重要,是因為鳴槍示警可能是模糊的
如果鳴槍示警發生並導致了好的結果,有人可能會認為這僅僅是更加樂觀的理由——而且這樣的世界不值得關注,因為事情預設會進展順利。但鳴槍示警引發的認知更新遠非保證是正確的。這意味著在塑造鳴槍示警世界如何展開方面,可能存在顯著的槓桿作用。
一次鳴槍示警很容易導致:
歸咎於特定的實驗室或架構,而非對齊問題深層的難度;
反應不足、反應過度,或廣泛的 AI 抵制,而非針對性的風險降低;
或者是恐慌、監管俘虜和不良激勵的混亂結合。
雖然 一些 觀點 將 這種不確定性作為進一步悲觀的理由(認為機構即使面對新證據也無法更新認知),但它也可以支持相反的結論。如果對鳴槍示警的預設反應可能是好的或壞的,那麼在提高有利反應的概率方面,就可能存在實質性的槓桿作用。
潛在有用的準備工作示例:
實驗室或政府預先做出承諾或制定條件性法規,針對特定類別的事件做出特定反應;^([3] )
預測哪些鳴槍示警最有可能發生,以了解在這些情況下還有哪些槓桿可用;^([4] )
預先為各種鳴槍示警情況製作政策備忘錄或行政命令;
預先商定協調機制,以減少反應過度、反應不足或誤導性的抵制;
研究我們可以從歷史上的鳴槍示警中學到什麼 ;
與可能做出反應的行動者進行對接與協調。
這裡有一個類似於在部分 無知之幕 後做出承諾的類比:預先決定如何反應可以幫助抵消未來的恐慌、激勵和動機性推理。因此,進行預測和承諾似乎具有潛在的高槓桿作用。
風險與逆向激勵
然而,這項工作並非沒有危險。
預期/鼓勵鳴槍示警可能會:
激勵對微弱信號的誇大;^([5] )
鼓勵在道德上不可接受的嘗試,去製造或加速「危險證明」;
或導致認知上的草率,將早期的失敗完全歸因於對齊問題。
因此,任何嚴肅的工作都應該:
對 AI 安全研究的一個推測性啟示
更具推測性地說,如果這種關注點是正確的,它暗示了我們應該如何思考當前 AI 安全研究格局的轉變。
早期的 AI 安全工作非常合理地強調了關於災難性風險的第一性原理論證。但隨著該領域的成熟,正如其他人所主張的,重新審視這些最初的論點並詢問它們在多大程度上仍應指導我們的優先事項變得越來越重要——特別是考慮到我們現在正投入大量資源應對特定的災難路徑,而這些路徑顯然不是最初引發擔憂的那些。
結論
我並不是說鳴槍示警一定會發生,或者它們本身足以產生好的結果。但考慮到 AI 實際開發和治理的方式,在災難發生之前,我們越來越有可能獲得部分或模糊的信號。
為我們如何解讀和應對這些信號做準備,看起來是 AI 安全中一個重要且目前尚未被充分探索的部分。
希望能獲得以下反饋:
這是否誇大了鳴槍示警的可能性或有用性;
哪些類型的示警看起來最有可能或最危險;
是否已經有人在進行專門針對此問題的研究。
感謝 ChatGPT 協助重寫並潤色本文的部分內容。
^(^ ) 這並不意味著我們絕對不會得到鳴槍示警:如果一個模型有信心它可以對齊下一組模型(至少在它認為考慮到價值漂移,這樣做比嘗試鳴槍示警更好的程度下),它可能會選擇那樣做。
^(^ ) 這也確實改變了安全水平。正如 Ege 所主張的,許多人擔心 AGI 並不是因為 AGI 本身(他說這些事情無論如何都會發生,如果可控的話是值得興奮的),而是因為它們發生的速度。如果我們處於一個這些事情發生得慢得多的世界,這些擔憂就會開始消散。
^(^ ) 例如,Dario Amodei 曾表示 ,如果出現更明確的迫在眉睫、具體危險的證據,且具備足夠的特異性來設計有效的規則,他會支持更強有力的監管:「明確地說,我認為我們很有可能最終達到一個需要採取更重大行動的點,但這將取決於比我們今天擁有的更強大的迫在眉睫、具體危險的證據,以及對危險足夠具體的描述,以便制定有機會解決問題的規則。」
^(^ ) 我還認為,將「鳴槍示警」框架化為對更廣泛 AI 安全世界觀的確認,可能具有實質性的優勢。
^(^ ) 一些人 已經 主張,領先實驗室報告的未對齊跡象已經被誇大了。一個合理的解釋是激勵驅動的:如果研究人員相信潛在風險非常高,他們可能會——無論是有意還是無意地——強調模糊的證據以鼓勵採取預防措施。