Our First Proof Submissions
OpenAI
We share our AI model’s proof attempts for the First Proof math challenge, testing research-grade reasoning on expert-level problems.
OpenAI
We share our AI model’s proof attempts for the First Proof math challenge, testing research-grade reasoning on expert-level problems.
AI 生成摘要
我們分享了針對 First Proof 數學挑戰的證明嘗試,這是一項測試 AI 是否能在特定領域問題上產生可驗證證明的研究級挑戰。我們相信模型提交的證明中至少有五項具有很高的正確機率,並以此評估下一代 AI 模型的研發能力。
2026 年 2 月 20 日
我們正在分享針對 First Proof 的證明嘗試,這是一項數學挑戰,旨在測試 AI 是否能在特定領域問題上產生可驗證的證明。
我們針對所有 10 個 First Proof(在新視窗中開啟)問題執行了一個內部模型。這是一項研究級別的數學挑戰,旨在測試 AI 系統是否能產生正確且可驗證的證明嘗試。與簡答題或競賽式數學不同,這些問題需要建立專業領域的端到端論證,且若無專家審查,很難確定其正確性。First Proof 問題的作者是各自領域的頂尖專家,其中至少有幾個問題在作者找到解決方案之前已經懸而未決多年。一個與這些學科領域有大量重疊的學術部門,理論上可以在一週內解決其中的許多問題。
我們在太平洋時間 2026 年 2 月 14 日星期六午夜 12:00 分享了(在新視窗中開啟)我們的證明嘗試。根據專家的回饋,我們相信模型至少有五個證明嘗試(問題 4、5、6、9 和 10)有很大機會是正確的,其他幾個仍在審查中。我們最初認為對問題 2 的嘗試可能是正確的,但根據 First Proof 的官方評論和進一步的社群分析,我們現在認為它是錯誤的。我們感謝各界的參與,並期待持續的審查。我們完整的證明嘗試集可以在這裡(在新視窗中開啟)找到。預印本包含了所有十個證明嘗試,以及一個新增加的附錄,其中包含提示詞模式和範例,旨在模擬我們在過程中與模型的手動互動。
我們認為,前沿研究是評估下一代 AI 模型能力最重要的途徑。基準測試雖然有用,但可能會遺漏研究中最困難的部分:維持長鏈推理、選擇正確的抽象概念、處理問題陳述中的歧義,以及產生經得起專家審視的論證。像 First Proof 這樣的前沿挑戰,能幫助我們在正確性難以驗證且失敗模式具有啟發性的環境中,對這些能力進行壓力測試。
「我們目前正在訓練一個新模型,其主要焦點是提高思考的嚴謹程度,目標是讓模型能夠連續思考數小時,並對其結論保持高度自信。當 First Proof 問題公佈時,它似乎是一個完美的測試場,所以我在週末嘗試了一下。它已經能夠解決其中的兩個問題(#9 和 #10)。隨著訓練的進行,它的能力越來越強,最終——根據我們的估計——至少又解決了三個。當它解決了 #6,兩天後又解決了 #4 時,我們感到特別高興,因為這些問題來自我們許多人熟悉的領域。看著一個模型一天天變得明顯更聰明,真是令人難以置信。」
– James R. Lee (OpenAI 研究員,推理)
我們在有限的人類監督下執行該模型。在訓練過程中對模型版本進行提示時,我們有時會建議重試在早期嘗試中看起來卓有成效的策略。對於某些嘗試,我們在收到專家回饋後,要求模型擴展或澄清證明的某些部分,以使推理更容易驗證。我們還促進了此模型與 ChatGPT 之間的來回溝通,以進行驗證、格式化和風格調整。對於某些問題,我們展示了經由人類判斷選出的幾次嘗試中最好的一次。這是一次快速的衝刺,我們的過程並不像我們在適當受控的評估中所希望的那樣乾淨。我們期待與 First Proof 組織者討論未來迭代中更嚴謹的實驗和評估框架。
這項工作建立在先前數學和科學前沿推理模型的成果之上。2025 年 7 月,我們使用通用推理模型在國際數學奧林匹亞競賽中達到了金牌水準(在新視窗中開啟)(35/42 分)。2025 年 11 月,我們分享了「利用 GPT-5 加速科學的早期實驗」,這是一系列案例研究,展示了 GPT-5 如何幫助研究人員在數學、物理、生物等領域取得具體進展,以及我們觀察到的局限性。最近,我們報告了一項物理合作,GPT-5.2 為膠子振幅公式提出了一個候選表達式,隨後由內部模型正式證明並由作者驗證。
我們期待與社群就如何評估研究級推理進行更深入的交流,包括對這些嘗試的專家回饋,我們也很高興能在未來的公開模型中提供這些新能力。
研究 | 2026 年 2 月 13 日
全球事務 | 2026 年 2 月 13 日
研究 | 2026 年 2 月 5 日