元科學與AI安全研究複驗原則

Lesswrong

大約 1 個月前

AI 生成摘要

我正在成立一個專門的團隊來系統性地複現人工智慧安全研究，並遵循以客觀元科學優先於個人偏見的原則，強調在簡單的同行評審之外，進行集中且嚴謹驗證的必要性。

如果我們在人工智慧安全（AI safety）研究上出錯，可能就沒有第二次機會了。儘管賭注如此之高，目前卻還沒有人努力系統性地審查和驗證實證 AI 安全論文。我想改變現狀。

今天，我提交了資助申請，準備成立一個致力於重製（replicating）AI 安全研究的團隊。但我們的目標究竟應該是什麼？AI 安全的重製研究應該長什麼樣子？經過 1 到 2 個月的考量以及超過 50 小時的對話，這份文件概述了將引導我們未來團隊的原則。

I. 元科學（Meta-science）並非為了證明誰是對的

研究人員似乎都同意，AI 安全研究中有一定比例是低質量、錯誤或具有誤導性的。然而，每個人對於「哪些」論文是有問題的，似乎都有不同的看法。

當我表示有興趣成立一個進行 AI 安全重製研究的小組時，我懷疑有些人認為我會去「揭發」那些他們不認同的論文。這是一個陷阱，對於身為重製者的我們來說，不掉入這個陷阱尤為重要。如果我們的重製結果往往只是證實了我們原本的信念，那這可能更多反映了我們的先驗偏見，而非我們正在研究的論文。

II. 尋找「爛」論文就像尋找「鬼屋」

想像一隊研究人員試圖尋找鬼屋的例子。他們可以調查可疑的建築，或聽取目擊過超自然活動的人提供的線索。然後，他們可以發布報告，指出你絕對應該避開哪些房子。但問題在於，鬼魂並不存在。他們發現的會是一個令人信服的故事，而不是潛在的真相。

試圖尋找「爛」論文就像尋找鬼屋。如果被賦予尋找無法重製的論文的任務，我們一定能找到。但令人不安的事實是，真正具有影響力且直接、客觀錯誤的論文其實很少見。實證主張在某種意義上可能是正確的，但並未說明全貌。我們的目標是說明全貌，而不是宣判哪些房子有鬼。

III. 研究無法自我監管

即使研究人員非常有自律，他們仍有動力圍繞著成功之處來構建論文，同時掩埋其局限性。同樣地，在設計評估時，研究人員更有動力去衡量他們引以為傲的特性，而不是那些他們希望消失的特性。

我聽過一些觀點，認為我們不需要同行評審。但我認為這兩者都不夠。^() 這兩者都假設了：

非作者會深入參與該研究，以確認發現或發現局限性。
作者會願意接受有效的批評並更新他們的論文。

第 1 點是不切實際的。第 2 點通常也不切實際，而且可以說對研究作者造成了不合理的負擔。例如，一位擁有 50 篇論文的作者，是否必須針對橫跨數年研究的數十篇論文中的每一項批評進行辯論並修正每一處瑕疵？

IV. 重製不僅僅是重複實驗

對於任何發布了程式碼的論文，「重製」圖表或統計數據應該是輕而易舉的（我們希望如此）。但僅僅因為統計數據可以重製，並不意味著該效應是真實的。我們希望仔細審視論文並詢問：

這些主張在統計檢定下是否失效？
該特性是特定於單一模型或模型家族嗎？
程式碼中是否有明顯但在論文中未記錄的局限性？
作者是否與基準（baseline）進行了評估？他們是否正確實作了基準？
等等……^()

我們的哲學是從零開始，嚴格按照論文所述實作，看看是否能得到相同的結果。之後，我們會進行一些探索，看看是否有任何奇怪之處。

V. 重製研究本身與原論文一樣值得懷疑

如果我們無法重製某個結果，這是否意味著我們做錯了什麼？是的，當然可能！我們顯然會努力避免這種情況，並在進展不順時聯繫作者以獲取回饋。如果我們能找出為什麼行不通的原因，這本身也可以是一個發現（例如：X 只發生在小模型的大批次規模下）。如果我們盡了努力仍無法找出原因，最終寫出一份報告說明以下內容是有意義的：

這是我們所做的。
儘管我們嘗試了 X、Y 和 Z，但還是行不通。
我們不知道為什麼會這樣，因此其影響尚不明確。

VI. 某種程度的中心化是必要的

我們的計劃是招募人員參與實體研究員計劃，並最終轉為全職職位。關於這一點，我最常收到的評論之一是：「為什麼不把重製工作外包給社群？」或「為什麼不提供重製懸賞，而是自己動手做？」

答案是誘因並不存在。在我們今年夏天運行試點計劃後，我們希望完成更具野心的重製工作（例如，重製或）。在這種規模下提供懸賞在物流上很困難，因為即使是最小限度的重製，光是運算成本就可能高達數千美元。

在選擇要重製哪些論文時，去中心化的方法或許更具原則性。我們有一個優先排序論文的框架，^() 但我們也在探索讓社群投票決定我們重製哪些論文的方法，以減少選擇偏誤。

VII. 我們都是成年人

我預期大多數的重製結果會是「一切正常，我們發現了 0 到 2 個極微小的問題」。但從事這類工作不可避免地有時會挑戰論文中的主張。這很困難，但重製研究應該直接陳述疑慮。公開對他人的工作提出任何批評都是有壓力的，但理智的人在面對善意的批評時是不會怪罪你的。

我們會認真對待作者的回饋，但我們不一定總能達成共識。在這種情況下，我們會將作者的評論附在我們的研究之後。

VIII. 回饋就是一切

一個重製 AI 安全論文的小組之所以存在，只有一個原因：對社群有用。這意味著我們重視您的回饋，並珍視每一句話。請告訴我們您的想法。

如果您想了解更多關於我們計劃的細節，我很樂意發送我們的提案。如果您對我們的夏季研究員計劃感興趣，可以在表達意願。

^() 而且就我個人而言，我甚至認為同行評審也是不夠的。
^() 我非常喜歡 Maksym Andriushchenko 在。
^() 簡而言之，我們計劃使用五個標準：
- 敘事影響力：這篇論文在多大程度上形塑了我們彼此之間以及與世界討論 AI 安全的方式？它對政策或頂尖實驗室的實務有重要影響嗎？
- 研究依賴性：是否有其他關鍵研究依賴於這篇論文？
- 脆弱性：這篇論文看起來是否不太可能被重製或推廣？
- 難度：重製需要投入多少時間和金錢？
- 時效性：在論文發布後幾週內完成重製，可以幫助研究社群快速迭代。然而，確保我們不會為了速度而降低標準也同樣重要。

Principles for Meta-Science and AI Safety Replications