我們的 First Proof 數學證明提交成果

OpenAI

8 天前

AI 生成摘要

我們分享了針對 First Proof 數學挑戰的證明嘗試，這是一項測試 AI 是否能在特定領域問題上產生可驗證證明的研究級挑戰。我們相信模型提交的證明中至少有五項具有很高的正確機率，並以此評估下一代 AI 模型的研發能力。

我們的 First Proof 提交內容 | OpenAI

2026 年 2 月 20 日

我們的 First Proof 提交內容

我們正在分享針對 First Proof 的證明嘗試，這是一項數學挑戰，旨在測試 AI 是否能在特定領域問題上產生可驗證的證明。

我們針對所有 10 個 First Proof⁠（在新視窗中開啟）問題執行了一個內部模型。這是一項研究級別的數學挑戰，旨在測試 AI 系統是否能產生正確且可驗證的證明嘗試。與簡答題或競賽式數學不同，這些問題需要建立專業領域的端到端論證，且若無專家審查，很難確定其正確性。First Proof 問題的作者是各自領域的頂尖專家，其中至少有幾個問題在作者找到解決方案之前已經懸而未決多年。一個與這些學科領域有大量重疊的學術部門，理論上可以在一週內解決其中的許多問題。

我們在太平洋時間 2026 年 2 月 14 日星期六午夜 12:00 分享了⁠（在新視窗中開啟）我們的證明嘗試。根據專家的回饋，我們相信模型至少有五個證明嘗試（問題 4、5、6、9 和 10）有很大機會是正確的，其他幾個仍在審查中。我們最初認為對問題 2 的嘗試可能是正確的，但根據 First Proof 的官方評論和進一步的社群分析，我們現在認為它是錯誤的。我們感謝各界的參與，並期待持續的審查。我們完整的證明嘗試集可以在這裡⁠（在新視窗中開啟）找到。預印本包含了所有十個證明嘗試，以及一個新增加的附錄，其中包含提示詞模式和範例，旨在模擬我們在過程中與模型的手動互動。

我們認為，前沿研究是評估下一代 AI 模型能力最重要的途徑。基準測試雖然有用，但可能會遺漏研究中最困難的部分：維持長鏈推理、選擇正確的抽象概念、處理問題陳述中的歧義，以及產生經得起專家審視的論證。像 First Proof 這樣的前沿挑戰，能幫助我們在正確性難以驗證且失敗模式具有啟發性的環境中，對這些能力進行壓力測試。

「我們目前正在訓練一個新模型，其主要焦點是提高思考的嚴謹程度，目標是讓模型能夠連續思考數小時，並對其結論保持高度自信。當 First Proof 問題公佈時，它似乎是一個完美的測試場，所以我在週末嘗試了一下。它已經能夠解決其中的兩個問題（#9 和 #10）。隨著訓練的進行，它的能力越來越強，最終——根據我們的估計——至少又解決了三個。當它解決了 #6，兩天後又解決了 #4 時，我們感到特別高興，因為這些問題來自我們許多人熟悉的領域。看著一個模型一天天變得明顯更聰明，真是令人難以置信。」

– James R. Lee (OpenAI 研究員，推理)

我們在有限的人類監督下執行該模型。在訓練過程中對模型版本進行提示時，我們有時會建議重試在早期嘗試中看起來卓有成效的策略。對於某些嘗試，我們在收到專家回饋後，要求模型擴展或澄清證明的某些部分，以使推理更容易驗證。我們還促進了此模型與 ChatGPT 之間的來回溝通，以進行驗證、格式化和風格調整。對於某些問題，我們展示了經由人類判斷選出的幾次嘗試中最好的一次。這是一次快速的衝刺，我們的過程並不像我們在適當受控的評估中所希望的那樣乾淨。我們期待與 First Proof 組織者討論未來迭代中更嚴謹的實驗和評估框架。

這項工作建立在先前數學和科學前沿推理模型的成果之上。2025 年 7 月，我們使用通用推理模型在國際數學奧林匹亞競賽中達到了金牌水準⁠（在新視窗中開啟）（35/42 分）。2025 年 11 月，我們分享了「利用 GPT-5 加速科學的早期實驗」，這是一系列案例研究，展示了 GPT-5 如何幫助研究人員在數學、物理、生物等領域取得具體進展，以及我們觀察到的局限性。最近，我們報告了一項物理合作，GPT-5.2 為膠子振幅公式提出了一個候選表達式，隨後由內部模型正式證明並由作者驗證。

我們期待與社群就如何評估研究級推理進行更深入的交流，包括對這些嘗試的專家回饋，我們也很高興能在未來的公開模型中提供這些新能力。

作者

延伸閱讀

研究 | 2026 年 2 月 13 日

全球事務 | 2026 年 2 月 13 日

研究 | 2026 年 2 月 5 日

Our First Proof Submissions

我們的 First Proof 提交內容 | OpenAI

我們的 First Proof 提交內容

作者

延伸閱讀