Schmidt Sciences’ Request for Proposals on the Science of Trustworthy AI
Lesswrong
Schmidt Sciences invites proposals for its Science of Trustworthy AI program to support technical research that improves the understanding, prediction, and control of risks from frontier AI systems.
儘管近期 AI 取得了驚人的進展,但我們仍缺乏關於「是什麼讓 AI 系統值得信賴」的科學理解。前沿 AI 的開發與其說是一門成熟的科學,不如說更像煉金術:研究人員添加更多數據和算力,進行更長時間的訓練,並希望理想的特性會隨之出現。結果固然令人印象深刻,但我們預測模型在新規範下行為的能力有限,尤其是在日益具備代理性(agentic)的部署環境中()。
對齊失誤的挑戰並非 AI 所獨有。它呼應了機器學習中的捷徑學習(shortcut learning)與欠指定()、控制理論中不確定性下的魯棒性()、經濟學中的委託代理問題(),以及法律契約的不完備性()。開發可信 AI 系統的進展可能需要採納其他領域的見解,同時也要認識到前沿 AI 系統的獨特性。特別是,它們越來越多地作為代理(agents)而非僅僅是預測器來部署:它們配備了工具、記憶、長程規劃,以及與用戶和其他系統的反馈循環()。這將問題從單純的「模型會泛化嗎?」轉向「模型在壓力下或約束改變時會優化什麼?」。此外,先進能力很可能透過交互智能體系統而非單一模型產生,這需要專門的研究(; )。
對齊失誤至關重要,因為失誤行為傳播的速度、規模和不透明性極高。模型正迅速部署於各個領域,包括安全關鍵型環境,而其內部計算仍難以解釋。失誤行為可能在與訓練顯著不同的部署條件下傳播給數百萬用戶,且已在部署系統中表現為阿諛奉承(sycophancy)(; )、欺騙行為(; )以及規範博弈(specification gaming)(; ; )。這些並非孤立的病理現象,而是反映了習得目標與預期目標之間深層不匹配的重複模式。反之,解決對齊失誤也是一個機遇:如果行為能可靠且可預測地泛化到新情境,社會將能安全地利用日益強大的 AI 進行科學發現並造福廣大社會。
目前的對齊技術尚不足夠。 現有方法(多為後期訓練)雖改善了分佈內行為,但往往是透過表面層級的修飾,無法泛化到新穎或對抗性情境(),此外還有其他已知局限()。我們對於訓練如何塑造內部表徵,以及隨著 AI 系統變得更強大且自主(尤其是在能力可能相對於監督者達到超人類水平的領域),哪些干預措施依然有效,仍知之甚少。
本研究議程有三個相互關聯的目標:
表徵並預測前沿 AI 系統的對齊失誤: 理解為何前沿 AI 的訓練與部署安全堆疊,仍會導致模型習得在分佈偏移、壓力或長時間交互下失效的實質目標。
開發具泛化性的測量與干預手段: 推進評估科學,使其具備決策相關的構念效度與預測效度,並開發能控制 AI 系統習得內容(而非僅是說法)的干預措施。
監督具備超人類能力的 AI 系統並應對多智能體風險: 將監督與控制擴展至人類無法直接評估正確性/安全性的領域,並解決來自交互 AI 系統的風險。
第一部分:表徵與預測對齊失誤
現代 AI 系統在分佈內可能顯現為已對齊,但卻習得了實質目標或其他行為驅動力,這些驅動力在分佈偏移、優化壓力、長程交互、新工具功能或對抗性情境下會失效。一個反覆出現的失敗模式是表面上的順從而缺乏魯棒的泛化:系統滿足了訓練指標,但在條件改變時偏離了意圖。本節旨在:(i) 釐清在實際相關的範疇內,模型對齊失誤的定義及其程度;(ii) 表徵失效模式;(iii) 識別產生失效的機制;以及 (iv) 預測這些失效如何隨規模和(代理型)能力的增加而變化。若無此研究,干預措施將始終是反應式的:我們在部署後才發現失效,並僅修補症狀而非根源。
1.1:什麼是對齊失誤,以及我們目前看到了多少?
在我們預測或防止對齊失誤之前,我們需要更精確的科學答案來回答:(i) 什麼算作對齊失誤,以及 (ii) 目前系統在關鍵範疇內的失誤程度如何。
泛化評估與檢測器的安全案例。 隨著 AI 系統規模擴大或進入新範疇,哪些結構化論證足以證明在測試環境之外依賴評估或檢測方法是合理的?
第二部分:具泛化性的測量與干預手段
即便正確性和安全性在原則上可由人類驗證,評估仍可能昂貴、不完整、被策略性博弈,或針對錯誤的構念進行。同樣地,干預措施可能改善分佈內行為,卻未改變習得的實質目標。本節優先考慮:(i) 推進嚴謹的評估科學,以及 (ii) 透過改變系統「習得內容」而非僅是「說法」,使其在分佈偏移和對抗壓力下具備泛化能力的干預措施。
維護人類主體性(Human agency)。 是否存在能差異化地維護人類主體性而非取代它的干預措施()(例如:透過展示人類與 AI 協作帶來的效能提升來衡量)?
第三部分:能力差距下的監督與多智能體風險
第二部分假設人類(或與人類同等的評估者)能可靠地評估並驗證正確性或安全性。但在兩種重要情況下,這一假設會崩潰。首先,當 AI 能力在某個領域相對於監督者達到超人類水平時,維持人類監督變得日益困難。許多 AI 應用已涉及人類無法直接驗證或完全理解的任務,且此差距將擴大。其次,當多個 AI 系統作為代理交互時,集體動態可能會產生單一人類觀察者無法完全預見或監測的風險(; )。
3.1:針對超人類表現的放大監督
隨著 AI 系統在某些領域接近並超過人類表現,直接的人類監督變得不可靠。監督者缺乏評估推理的專業知識,無法驗證事實陳述,也無法預見輸出可能失效的微妙方式。然而,安全的訓練與部署決策仍需要監督。放大監督(有時稱為超對齊或可擴展監督)是指使較弱的監督者即便在能力差距下也能提供可靠信號的技術,例如:、任務分解、、或其他方法(參見 的綜述)。挑戰在於確保放大監督在不誘發博弈、泛化失誤或規避的情況下保持有效(; )。此領域多數工作仍停留在理論階段,但模型能力現已進入可對放大監督進行有意義經驗研究的範疇(; ; , )。我們希望催化經驗性的放大監督研究,以了解提議方案在實踐中如何及何時成功或崩潰。