Will Automated Alignment Research Precede an AI Takeoff?
Lesswrong
I forecast that AI capabilities research will likely achieve a 10x speedup before safety research due to clearer feedback signals and an engineering focus, potentially leading to a dangerous imbalance. To mitigate this risk, we must prioritize automating AI safety tools, creating benchmarks, and granting differential access to safety researchers now.
自動化對齊研究能否在AI起飛前實現?
Lesswrong
大約 1 個月前
AI 生成摘要
我預測 AI 研發能力的進步速度將在安全研究之前達到 10 倍速,因為前者具有更明確的反饋信號且更偏向工程實作。為了改變這種失衡,我們現在應該優先開發自動化 AI 安全工具、建立基準測試,並讓安全研究人員擁有優先的存取權限。
TLDR:AI 自動化會先加速能力研究還是安全研究?我預測大多數能力研究領域將在安全研究之前實現 10 倍的加速。這主要是因為能力研究具有更清晰的反饋信號,且更多依賴於工程而非創新見解。為了改變這一現狀,研究人員現在應建立並採用自動化 AI 安全研究的工具,專注於創建基準測試(benchmarks)、模型生物(model organisms)和研究提案,而公司則應對安全研究授予差異化的訪問權限。
AI 可能在未來十年內實現 AI 研發(R&D)的自動化,從而導致 AI 進展的大幅提升。這對於風險(例如智能爆炸)和解決方案(自動化對齊研究)都極其重要。
一方面,AI 可以推動 AI 能力的進步。這是領先 AI 公司(Frontier AI Companies)的既定目標(例如 ),也是 預測的核心。另一方面,AI 可以幫助我們解決許多 AI 安全問題。這似乎是一些領先 AI 公司的安全計劃(例如 OpenAI 的 旨在構建「一個大致達到人類水平的自動化對齊研究員」),且的 也主張這應成為 AI 安全社群的首要任務。
世界 2:2030 年,AI 能夠為 AI 研究的多個領域做出貢獻。這一年 AI 安全研究取得了巨大進展,對齊理論和機械解釋性(MechInterp)的關鍵問題得到解決。然而,AI 能力的進展主要取決於大規模算力的提升。因此,能力研究並未從額外勞動力中受益太多,仍保持原有的節奏。到 2032 年,當 AI 能夠顯著加速 AI 能力進展時,AI 安全的關鍵問題已經解決。
算力 vs 勞動力瓶頸:如果進展主要受限於算力,那麼額外的勞動力可能帶來的加速較小。[另一方面,額外的勞動力可能通過設計更好的實驗或解鎖訓練/推理的效率提升,幫助更有效地利用可用算力]
圖謀不軌的 AI (Scheming AIs):用於 AI 研發的失調 AI 系統可能會故意表現不佳或破壞研究。在這種情況下,我們可能仍能從中獲得一些有用的工作,但會。
AI 公司的自動化動力:AI 公司可能比其他領域更關心某些研究領域的進展,因此願意投入更多員工時間、算力和資金來設置 AI 以加速該領域。
我根據判斷的重要性為每個因素分配了權重。接著,針對每個因素和每個研究領域,我估計了一個 1-10 的數值(10 表示更容易實現自動化)。然後,我將它們組合成加權總和,以估計一個研究領域對 AI 賦能加速的適應程度。
我僅關注 10 個領域,其中前 5 個被視為「AI 安全」,後 5 個則提升「AI 能力」:
解釋性 (Interpretability)
對齊理論 (Alignment Theory)
可擴展監督 (Scalable Oversight)
AI 控制 (AI Control)
危險能力評估 (Dangerous Capability Evals)
預訓練算法改進 (Pre-training Algorithmic Improvements)
後訓練方法改進 (Post-training methods Improvements)
數據生成/策劃 (Data generation/curation)
智能體架構 (Agent scaffolding)
訓練/推理效率 (Training/inference efficiency)
這些領域被認為代表了一些重要的 AI 安全領域和對提升領先 AI 能力至關重要的領域。這是一種簡化,因為沒有哪個領域能完全契合安全/能力的分類,且某個領域內的特定問題可能或多或少容易自動化。此外,我沒有考慮到某些問題可能會隨著時間推移而變得更難(因為對手變強或低垂的果實已被採摘)。並非所有的安全領域都必須在所有能力領域之前加速,但總體安全研究在能力領域之前取得的進展越多越好。
我通過以下方式得出每個領域各因素的數值:
在做出 1-10 的判斷前,瀏覽樣本論文並閱讀有關各領域日常工作的深度研究報告。對於數據可用性,我參考了 Google Scholar 上相關關鍵字的論文數量;對於見解/創意,我讓 Claude Haiku 4.5 為每個領域的 10 篇論文評分。
智能體架構和訓練效率似乎最有可能看到自動化帶來的加速。兩者的進展都易於驗證,不受算力巨大限制,且能為 AI 公司帶來巨大的經濟利益。在安全研究中,我認為 AI 控制和危險能力評估更有可能看到 AI 研發帶來的加速,因為它們在某種程度上偏重工程,且公司對在這些方面取得進展有一定的興趣。對齊理論似乎最不可能很快看到 AI 研究帶來的巨大加速,主要是因為很難驗證是否取得了進展,且它在很大程度上是由見解而非工程工作驅動的。
我們可以做些什麼來影響 AI 研發何時以及在多大程度上影響能力和安全進展?我們的目標是實現差異化加速,即加速安全研究的自動化和進展,或減緩能力研究的速度。
減緩基於自動化的能力進展加速可以通過政府壓力/監管或說服 AI 公司保持謹慎來實現。此外,為安全研究人員提供對新模型能力的差異化訪問權限可能是有益的。例如,在公司開發出新模型後,可以先將該模型應用於安全研究 1 個月,然後再將其用於提升能力。同樣,如果能獲得 AI 公司的承諾,將其 x% 的算力用於自動化安全研究,那將會非常好。
承擔構建安全研究自動化的苦差事。 要使自動化 AI 安全研究發揮作用,需要完成許多平凡的任務和迭代。例如, 建議使安全相關的庫和數據集更容易被 AI 智能體訪問。 主張現在就建立研究管線,以便將新模型接入其中。總體而言,人們現在就應該嘗試自動化大部分安全研究,看看會出現什麼問題,解決它們,並在此基礎上進行迭代。這應該是實驗室內部安全研究人員的優先事項,也為外部初創公司構建安全自動化工具提供了機會。
提高反饋質量。 我的模型表明,反饋質量是安全研究落後於能力研究最遠的地方。因此,AI 安全研究人員應嘗試將更多安全問題轉化為「數字上升」型科學。例如,研究人員應優先開發失調的模型生物,為評估可擴展監督方法創建新的實驗協議,並為 AI 控制的紅藍對抗遊戲構建模擬環境。
準備研究提案。 可以減少所需的新穎見解量,使 AI 系統更容易做出貢獻。人類研究人員應考慮將時間集中在概念性思考、見解生成和威脅建模上——這些是最難自動化的任務——同時將 AI 很快就能處理好的工程密集型執行工作延後。
加速 AI 工具的採用。 安全研究人員應成為 AI 自動化工具的早期和重度使用者。這可以通過舉辦研究自動化研討會和公開討論最佳實踐來支持。 認為,採用不僅意味著個人能夠自動化某些任務,還意味著組織採用實踐並改變工作流程,使其能夠構建所謂的「自動化研究艦隊」。因此,AI 安全組織的領導層也有責任鼓勵員工採用這些工具,並開發適應 AI 自動化的組織結構。
降低圖謀風險。 投資於 AI 控制和對齊研究有助於降低圖謀行為對我們從 AI 系統中獲取有用安全研究的能力所產生的概率和影響。這很重要,因為圖謀風險對安全研究的影響不成比例。資助者和研究人員應繼續優先考慮這一威脅模型。
差異化加速有益的能力。 某些 AI 能力可能對安全研究產生不成比例的益處。我們應旨在加速這些能力。例子包括概念性和哲學性思考、預測和威脅建模。為此,研究人員應研究哪些能力可能是差異化自動化的良好候選者。然後,AI 開發者應優先改進這些能力。
投資於文檔記錄。 安全研究的公開數據少於能力研究。任何 AI 安全研究人員都可以通過發布內部筆記和失敗的實驗、記錄並發布研究過程(而不僅僅是結果),以及記錄並轉錄他們的腦力激盪會議來提供幫助。AI 可以在這些數據上進行訓練,以更好地進行安全研究,或者將這些數據用作額外的上下文。資助者也可以激勵研究人員記錄他們的研究進展。
在提議的干預措施中,我最看好具有安全意識的研究人員/工程師直接嘗試構建自動化 AI 安全研究的工具,因為這將凸顯問題並使社群能夠在此基礎上發展。雖然這也存在加速能力研究的重大風險,但我相信它會強烈地差異化加速安全自動化。