推進人工智慧對齊的獨立研究

OpenAI

9 天前

AI 生成摘要

我們將向 The Alignment Project 投入 750 萬美元，資助獨立研究以開發減輕人工智慧失調所帶來的安全與保障風險的方案。

推動 AI 對齊領域的獨立研究 | OpenAI

2026 年 2 月 19 日

推動 AI 對齊領域的獨立研究

我們將向「對齊計畫」（The Alignment Project）投入 750 萬美元，資助獨立研究，以開發針對 AI 失控（misaligned AI）所帶來的安全與保障風險的緩解措施。

隨著 AI 系統變得更加強大且更具自主性，對齊研究需要與之並進並擴大多樣性。在 OpenAI，我們投入大量資源於前沿對齊與安全研究，因為這對我們的使命至關重要。我們也相信，確保通用人工智慧（AGI）安全且造福全人類的目標，無法由單一組織獨自達成，因此我們希望支持可在前沿實驗室之外進行的獨立研究與概念性方法。我們相信 AI 的未來不會完全按照任何人的預測發展，應該有更多人參與塑造其結果。

今天，我們宣布向「對齊計畫」⁠（在新視窗中開啟）提供 750 萬美元的資助。這是一個由英國 AI 安全研究院（UK AISI）創立的全球獨立對齊研究基金。Renaissance Philanthropy 負責支援該資助金的管理工作。這筆捐款使「對齊計畫」成為迄今為止最大的獨立對齊研究專項資助計畫之一，並強化了更廣泛的獨立生態系統。

像 OpenAI 這樣的前沿實驗室處於獨特地位，可以進行依賴於前沿模型存取權限和龐大算力的對齊研究——這類工作通常是獨立研究人員難以探索的。我們將大部分內部對齊工作投入於開發可擴展的方法，使對齊進度能跟上能力發展的步伐。我們相信迭代部署（在加強安全措施的同時逐步提升能力）有助於及早發現問題，並為實踐中的有效方法提供具體證據；而負責任的開發需要與模型構建和部署緊密結合的大量對齊與安全工作。

與此同時，該領域也受益於對獨立探索性研究的持續投資——這能擴展想法空間並發現新方向。獨立研究仍然至關重要；在許多類型的有益探究中，實驗室並不具備比較優勢。一個健康的對齊生態系統取決於獨立團隊測試多樣化的假設、開發替代框架，並探索可能無法與任何單一組織的路線圖整齊契合的概念性、理論性和前瞻性想法。

由於 AGI 的進展最終可能取決於改變對齊問題形態及決定哪些方法最有效的根本性突破，因此支持那些即使在當前主流方法未能如預期擴展時依然重要的研究至關重要。在那些情境下，擁有一個從事基礎性、概念性且非相關性工作的強大外部生態系統變得尤為重要。AI 對齊與安全問題的重要性前所未有，隨著能力持續進步，我們尚不知道哪些方法會被證明最為持久，因此我們需要全員參與。

我們的資助金（按當前匯率計算約為 560 萬英鎊）將與其他公共、慈善和產業支持者共同資助「對齊計畫」⁠（在新視窗中開啟）。該基金總額超過 2,700 萬英鎊，旨在支持全球範圍內廣泛的對齊研究項目組合，涵蓋計算複雜性理論、經濟理論與賽局理論、認知科學、資訊理論及密碼學等多元主題。單個項目通常獲得 5 萬至 100 萬英鎊的資助，並可能獲得可選的算力資源與專家支援。

我們的資助不會建立新的計畫或篩選流程，也不會影響現有流程；它增加了當前輪次中可以獲得資助的已通過審核、高品質項目⁠（在新視窗中開啟）的數量。

英國 AI 安全研究院（UK AISI）具備引導此等規模與範圍的對齊資金的優勢。它帶來了一個跨越政府、學術界、慈善界和產業的成熟跨部門聯盟，並擁有已在運作中的資助管道以及大量經過專家評審的提案。作為英國科學、創新與技術部（DSIT）旗下的政府研究機構，它還擁有專注於嚴重 AI 風險的授權，並在運行研究資助計畫方面經驗豐富。

由於 AI 的未來不會完全按照任何人的預測發展，且可能進展神速，我們相信民主化、「AI 韌性」和迭代部署至關重要。在 OpenAI 持續推進前沿對齊與安全研究的同時，隨著能力的提升，一個追求互補方法的強大、多樣且獨立的生態系統將使進展受益。這筆資助是朝向該目標邁出的一步。我們期待隨著領域的發展，繼續與更廣泛的研究社群合作。

延伸閱讀

全球事務 | 2026 年 2 月 18 日

全球事務 | 2026 年 2 月 13 日

全球事務 | 2026 年 2 月 9 日

Advancing independent research on AI alignment

推動 AI 對齊領域的獨立研究 | OpenAI

推動 AI 對齊領域的獨立研究

延伸閱讀