高可靠性工程對AGI安全有何啟示？

Lesswrong

26 天前

AI 生成摘要

我認為雖然嚴謹的規格說明和建模等高可靠性工程實踐對傳統系統至關重要，但目前並不適用於通用人工智慧（AGI）安全，因為我們對這些系統的運作方式缺乏深度理解。部分 AGI 開發者推動這類規格說明是一個錯誤，忽略了當前 AI 模型根本上的不可預測性與缺乏透明度。

這篇文章在某種程度上是遲來地回應 Joshua Achiam，他目前是 OpenAI 的使命對齊負責人（Head of Mission Alignment）：

如果我們採用其他專業工程領域常見的安全最佳實踐，我們就能達成目標……我認為自己是關注生存風險（x-risk）的人之一，儘管我同意他們中的大多數人會拒絕我關於如何預防風險的觀點。我認為，全盤拒絕其他領域的安全最佳實踐，是一群在其他方面非常聰明的人所犯過最愚蠢的錯誤之一。——

「我們只需要坐下來，實際寫出一份該死的規格書（specification），即使這過程像拔牙一樣痛苦。這是我們可能做的最重要的事情，」遺憾的是，AGI 對齊領域幾乎沒有人這麼說過。……我正在想像數百頁的文檔，描述各種應用領域的特定行為和可接受的誤差容限……——

作為這群犯下「最愚蠢錯誤之一」的「在其他方面非常聰明的人」中的自豪一員，我將解釋為什麼我不認為這是一個錯誤。（事實上，自 2022 年以來，一些「生存風險關注者」確實開始朝著這類規格書努力，而我認為他們才是犯錯並浪費時間的人！）

同時，我也將描述我所看到的 Joshua 觀點中的核心事實，以及為什麼這不應被視為對「生存風險關注者」的指控，而應被視為對 OpenAI 本身，以及所有其他競相開發 AGI 的團隊的控訴。

1. 我的資歷（即便微不足道）

我並非真正的「高可靠性工程」（high-reliability engineering）專家。但我從 2015 年到 2021 年在擔任物理學家，我的許多同事致力於建造那些必須在極端環境中運作的東西——例如，或者是。

需要澄清的是，我並沒有直接參與這些「高可靠性工程」項目。（我的專長是為及其相關算法進行極早期的設計和可行性研究。）但我的同事確實在做那些項目，在那五年裡，我對他們日常工作的內容和方式有了一定的了解。

……所以，是的，我並不是真正的「專家」。但作為一名，我大概屬於™——即同時理解高可靠性工程最佳實踐與 AGI 安全對齊的人。那麼，我們開始吧！

2. 高可靠性工程簡述

基本上，其核心理念是：

你確切地了解在每一種你關心的情況下，這個東西應該做什麼。
你確切地了解這個東西需要在什麼樣的情況（環境）下工作——溫度、振動、負載、壓力、試圖破壞它的對手等。
你對這個東西的工作原理有深刻的理解，這種理解以模型的形式呈現，能夠可靠且清晰地從組件公差等細節推導至核心性能。而且這些模型堅定地預測該裝置將會正常運作。
（模型還納入了組件失效等的概率和後果——因此通常會得出該裝置需要冗餘、容錯、工程餘裕、定期檢查等結論。）
這些模型會與各種詳細的數值模擬（例如）和物理（實驗室）測試進行對比。這些測試的目的不是為了「通過或失敗」，而是為了產出大量的數據，以便與模型進行廣泛的定量對比，從而發現模型可能遺漏的「未知的未知」。
例如，一個航天項目可能會進行振動測試、離心測試、真空測試、輻射暴露、高溫、低溫、溫度梯度等等。
即使在完成這一切之後，在進行現實的全規模測試之前，沒有人會真正指望這東西能運作。同樣，這些測試不僅要「通過」，還要產出大量測量數據，且所有數據都要與基於對系統深刻理解的預期定量吻合。
（然而，我確實目睹過優秀且盡責的團隊製造出在第一次現實全規模嘗試中就完美運作的新事物——例如，運作良好，儘管他們顯然無法在太空中對其設備進行試運行，更不用說在太陽日冕內部了。）
在建造實際物體時——組裝零件和編寫代碼——會對細節進行一絲不苟的關注，涉及各種有些繁瑣的系統和大量的清單檢查，以確保萬無一失。在從組件到子組件再到最終產品的建造過程中，還會有測試和檢查。通常會涉及像這樣的專業軟體產品。對於軟體，專業術語是，分別指系統地將代碼與設計規格進行比較，以及將設計規格與現實世界的需求和預期進行比較。
這些系統需要在人員層面和組織層面得到支持。前者涉及稱職的人員，他們了解利害關係，並且即使在無人監督的情況下也深切關注正確性。後者涉及對故障和險些發生的事故進行深度分析、紅隊演練等。這通常也適用於供應商、分包商等。

3. 這些對 AGI 安全適用嗎？

3.1 從某種意義上說，不，顯然不適用

假設我有一個單一的、具備人類頂尖智力水平的 AGI，我想用它賺 2500 億美元。嗯，傑夫·貝佐斯（Jeff Bezos）用他的大腦賺了 2500 億美元，所以我顯然可以讓我的 AGI 做貝佐斯所做的事，即去自主創立、發展並經營一家創新公司。

（如果你在這裡有異議，請參閱我在。）

現在看看上面的清單，思考它如何應用於此。例如：「你確切地了解在每一種你關心的情況下，這個東西應該做什麼。」

絕無可能。

在我以前的工程研發公司，我們確切地知道某個子系統應該做什麼：它應該每 Y 毫秒輸出一次物理量 X 的測量值，只要它保持在某些環境參數內，噪聲不超過 Z，漂移不超過 W。同樣，橋樑設計師確切地知道橋樑應該做什麼：在交通負荷 U 和風力條件 T 等情況下，不倒塌，且擺動和振動幅度不超過 V。

……好，那麼我們的「AGI 傑夫·貝佐斯」在任何給定時間確切地應該做什麼？

沒人知道！

事實上，沒人知道正是關鍵所在！這正是 AGI 傑夫·貝佐斯能創造如此巨大價值的根本原因！

當人類傑夫·貝佐斯在 1994 年創立亞馬遜時，顯然沒有人給他一份詳細的規格書，告訴他在任何可能的情況下該做什麼，而遵循該規格書就能創建一個極其成功的電子商務 / 雲端運算 / 串流媒體 / 廣告 / 物流 / 智慧音箱 / 好萊塢製片廠 / 等等業務。例如，在 1994 年，沒有人（包括貝佐斯本人或地球上的任何其他人）知道如何經營現代雲端運算業務，因為事實上「現代雲端運算業務」這個概念當時根本不存在！這個商業模式是在多年後由貝佐斯（及其員工）發明出來的。

同理，在未來的任何隨機一天……

我們的 AGI 傑夫·貝佐斯將嘗試執行一項我們目前無法想像的任務，使用目前尚不存在的想法和方法。
它對什麼構成（這項微任務的）成功將有一種直覺，這種直覺是從廣泛且獨特的局部經驗中學到的，人類需要多年時間才能複製這種直覺。
這項微任務將推進某個長期計劃，而無論是我們還是 AGI 目前都還無法夢見這個計劃。
這將發生在一個可能與現在截然不同的更廣闊世界的背景下。
我們的 AGI 傑夫·貝佐斯（以及全球其他 AGI）將以一種讓人類監控這些決定好壞變得極不現實的規模和速度來做出這類決策。

……而我們要為此寫一份詳細的規格書，類比於我上面提到的感測器和橋樑的規格書？我們要通過設計來確保 AGI 遵循這份規格書？

絕無可能。如果你相信這一點，我認為你完全無法想像一個擁有真正 AGI 的世界。

3.2 從另一種意義上說，是的，至少我真心希望最終能做到

當我們建造出真正的 AGI 時，它將像地球上的一個新智慧物種，而且最終會比人類快得多、多得多、強得多。如果它們想消滅人類並獨自統治世界，它們是有能力的。（關於 AGI 滅絕風險的更多信息，請參閱，或。）

現在，我那些參與的朋友們能夠提前運行某些測試——輻射測試、熱測試等等——但當他們的感測器第一次進入實際的太陽日冕時，它必須成功，沒有重來的機會。

同理，我們可以對未來的 AGI 進行某些安全的測試。但當 AGI 第一次自主地在世界各地傳播，發明變革性的新技術和想法，並獲得不可逆轉地鞏固其權力的機會時，那些 AGI 最好能做出讓我們滿意的決定，因為沒有重來的機會。

第 2 節中列出的所有實踐都有其存在的理由；它們是我們在全新情況下讓系統第一次運行就成功的唯一機會。它們不是可有可無的加分項，而是讓任務從「絕望」變為「極其困難」的最低限度要求。如果按照第 3.1 節的說法，將這些技術應用於 AGI 似乎是不可能的，那麼，我們最好。

那會是什麼樣子？我們如何達到一種擁有深刻理解的境地，並且這種理解讓我們有強大的理由相信在所關注的（分佈外）場景中一切都會順利，並且我們擁有各種安全的測試，可以與這種理解進行定量對比，以發現未知的未知？

我不知道！

大概這種「規格書」和測試更多是關於 AGI 的動機、傾向或類似的東西，而不是關於它的具體行為？無論是什麼，我們最好把它搞清楚。

我們現在還沒達到那種程度，甚至邊都沒摸到。

（即使我們達到了那個程度，我們還會面臨一個額外的問題：所有現有的以及未來可能的 AI 公司似乎既沒有能力，也沒有文化，沒有時間，通常甚至沒有願望去為 AGI 進行嚴格的高可靠性工程（§2）。參見例如 (Yudkowsky 2017)。）

4. 選讀補充章節：可能的反對意見與回應

可能的反對意見 1：你的第 3.1 節有誤導性；我們不需要規定 AGI 傑夫·貝佐斯為了經營成功的創新業務需要做什麼，而是需要規定他不能做什麼，例如他不能違法。

我的回應：如果你想說「不違法」等算是一份規格書，那麼，也沒有人知道如何針對「不違法」進行第 2 節所述的工作（深刻理解等）。

是的，我們應該解決這個問題。但我看不出 Joshua Achiam 在開頭建議的 300 頁規格書對此有什麼幫助。特別是：

如果你的路線圖是讓 AGI 遵守某些禁令清單的「法律條文」，那麼無論清單有多長，一個試圖完成任務的聰明 AGI ，並導致。
或者，如果你的路線圖是讓 AGI 遵守某些禁令清單的「法律精神」，那麼寫一份長長的禁令清單就沒有意義了。只需使用一個只有一項的「清單」，上面寫著「不要做壞事」。我不明白為什麼設計一個可靠地（在第 2 節的意義上）遵守這一項禁令精神的 AGI，會比設計一個可靠地遵守 300 頁清單精神的 AGI 更容易或更難。（在這兩種情況下，問題都尚未解決。）

可能的反對意見 2：我們只有在測試和部署之間存在潛在問題的分佈偏移（distribution shifts）時，才需要第 2 節的東西（深刻理解等）。如果我們可以對我們關心的事物進行無限次的低風險測試，那麼我們就可以直接進行試錯迭代。而由於 AGI 會逐漸進步，我們自然而然就能獲得這種條件。你為什麼預期會出現有問題的分佈偏移？

我的回應：參見我在第 3.2 節的評論，或許還有我的文章。或者試想：我們將進入這樣一個境地——全球有數百萬個具備心靈感應能力、超高速、馮·諾曼（John von Neumann）級別的 AGI，它們通過相當於幾個世紀的主觀時間的持續學習而不斷被塑造，並且能夠協調、發明新技術和想法，如果它們願意，還能徹底重構世界……你真的認為這與你安全的沙盒測試環境之間沒有任何有問題的分佈偏移嗎？？

因此，結論是：關於「逐漸接管 vs 突然接管」的爭論與我這裡的論點無關。（儘管鄭重聲明，。）

或許可以做個類比：如果你擔心當量為 Y 的核武器可能會，那麼先測試當量為 0.1×Y 的核武器，如果大氣層還沒被點燃，再測試 0.2×Y 的，這對解決問題毫無幫助。

Are there lessons from high-reliability engineering for AGI safety?