Accelerating Mathematical and Scientific Discovery with Gemini Deep Think
Google Deepmind
Research papers point to the growing impact of Deep Think across fields
Google Deepmind
Research papers point to the growing impact of Deep Think across fields
AI 生成摘要
Google DeepMind 的 Gemini Deep Think 被介紹為下一代 AI 系統,透過研究論文指出,該系統有望加速各領域的發現,進而重新定義科學研究。
Thang Luong 和 Vahab Mirrokni
在數學家和科學家專家的指導下,Gemini Deep Think 正在解決數學、物理學和電腦科學領域的專業研究問題。
2025 年夏天,Gemini Deep Think 的進階版本在國際數學奧林匹亞競賽 (IMO) 中獲得金牌標準,隨後,更新版本在國際大學生程式設計競賽中取得了類似的成績。這些結果表明該模型能夠解決為學生設計的最具挑戰性的數學和程式設計問題。自那以來,Gemini Deep Think 模型已進入科學、工程和企業工作流程,以應對更複雜、開放式的挑戰。
上週,我們的團隊發表了兩篇論文 (1, 2),詳細介紹了利用 Gemini Deep Think 模型解決專業研究問題的跨學科努力。這些成果源於數學家、物理學家和電腦科學家之間的深度合作。
與 IMO 問題不同,研究級數學需要廣泛文獻中的進階技術。雖然基礎模型擁有龐大的知識庫,但數據稀缺性常常導致在進階主題上的理解膚淺和產生幻覺。
為了解決這個問題,我們構建了一個數學研究代理(內部代號為 Aletheia),由 Gemini Deep Think 模型驅動。它具有自然語言驗證器,用於識別候選解決方案中的缺陷,並實現生成和修改解決方案的迭代過程。至關重要的是,該代理能夠承認無法解決問題,這是一項提高了研究人員效率的關鍵功能。
此外,該研究代理還使用 Google 搜尋和網路瀏覽來導航複雜的研究,在綜合已發表文獻時防止出現錯誤引用和計算不準確。
Aletheia 的概述,這是一個由 Deep Think 驅動的數學研究代理,能夠針對研究級數學問題進行迭代生成、驗證和修改。
自 2025 年 7 月獲得 IMO 金牌標準以來,Gemini Deep Think 進展迅速,在 IMO-ProofBench 進階測試中得分高達 90%,且推理時間計算量不斷擴大。我們證明了隨著我們從奧林匹亞競賽級別進入博士級練習(根據我們內部的 FutureMath Basic 基準測試),規模法則持續有效。值得注意的是,Aletheia 證明了在較低的推理時間計算量下可以實現更高的推理品質。
截至 2026 年 1 月,Deep Think 的最新進階版本在奧林匹亞級別問題上的表現,顯著優於 IMO-Gold 版本(2025 年 7 月)。推理時間規模法則也適用於博士級練習。Aletheia 在推理品質方面取得了進一步的飛躍,同時降低了推理時間的計算量。所有結果均由人類專家評分。
在研究級數學方面,Aletheia 已透過不同程度的自主研究實現了數項進展:
該代理還為另外兩篇論文 (FYZ26) 和 (ACGKMP26) 貢獻了中間命題。值得注意的是,先前已有使用 Gemini 進行研究級數學的較小規模工作,無論是在合作數量還是解決問題的數量上。
在與數學界進行廣泛討論後,我們建議採用一種分類法,根據重要性和 AI 的貢獻程度來對 AI 輔助數學研究進行分類——這有助於更廣泛地討論 AI 生成結果的負責任文件記錄、評估和溝通。2 級(「可發表品質」)的研究成果已提交給聲譽良好的期刊。目前,我們不聲稱任何 3 級(「重大進展」)和 4 級(「里程碑式突破」)的成果。
本工作中包含的所有 AI 輔助數學研究成果的分類。*此表中列為 2 級的作品已提交出版。
提示和模型輸出可在此處取得。有關 AI 貢獻、我們的「人機互動卡」以及社群影響的討論,請參閱我們的論文。
Gemini Deep Think 模型在電腦科學和物理學領域也展現了潛力。第二篇論文建立在類似的代理推理概念之上,並確定了有效的協作「配方」,特別是「顧問」模型,其中人類透過迭代的「氛圍證明」循環引導 AI 來驗證直覺和完善證明。我們還詳細介紹了「平衡提示」等策略技術——同時請求證明或反駁以防止確認偏誤——以及程式碼輔助驗證。這些方法,結合模型透過深層結構連結跨越不同科學領域的能力,正在改變理論研究的進行方式。這項工作建立在我們成功部署 Gemini Deep Think 的進階版本以協助審查 STOC’26 會議的 CS 理論論文的基礎之上。
AI 推理管線的示意性概述,說明網路層的廣泛解空間探索如何被導向結構化推理,並由自動化和人類驗證來驗證。
在與 18 個研究問題的專家合作後,Gemini Deep Think 的進階版本協助解決了演算法、機器學習和組合優化、資訊理論以及經濟學領域長期存在的瓶頸。我們「利用 Gemini 加速研究」論文的重點包括(論文中對應的章節編號):
這些成果涵蓋了從資訊和複雜性理論到密碼學和機制設計等多元領域,展示了 AI 如何從根本上改變研究。詳細資訊請參閱我們的論文。
鑑於電腦科學領域流動且由會議驅動的出版流程,我們以學術軌跡而非嚴格的分類法來描述這些成果。約一半的研究目標是頂級會議——包括一篇被 ICLR ’26 接受的論文——而其餘大部分發現將構成未來的期刊論文。即使在透過識別錯誤(第 3.2 節)或反駁猜想(第 3.1 節)來糾正該領域的方向時,這些成果也凸顯了 AI 作為高階科學合作夥伴的價值。
基於 Google 先前的突破 (1, 2, 3, 4, 5),這項工作表明,透過代理推理工作流程利用的通用基礎模型可以作為強大的科學伴侶。
在數學家、物理學家和電腦科學家專家的指導下,Gemini Deep Think 模型正在證明其在複雜數學、邏輯和推理為核心的各個領域的實用性。
我們正目睹科學工作流程的根本性轉變。隨著 Gemini 的演進,它充當了人類智慧的「增強器」,負責知識檢索和嚴格驗證,使科學家能夠專注於概念深度和創意方向。無論是完善證明、尋找反例,還是連結不相關的領域,AI 都正在成為科學進步下一篇章中的寶貴合作夥伴。
感謝數學家、物理學家和電腦科學家社群對此專案的支持。
此專案是 Google 內部的大規模協作,其成功歸功於眾多個人和團隊的共同努力。Thang Luong 和 Vahab Mirrokni 在 Tony Feng 和 David Woodruff 的深度技術專業知識的指導下,領導了整體研究方向。
第一篇論文「邁向自主數學研究」的作者包括:Tony Feng、Trieu H. Trinh、Garrett Bingham、Dawsen Hwang、Yuri Chervonyi、Junehyuk Jung、Joonkyung Lee、Carlo Pagano、Sang-hyun Kim、Federico Pasqualotto、Sergei Gukov、Jonathan N. Lee、Junsu Kim、Kaiying Hou、Golnaz Ghiasi、Yi Tay、YaGuang Li、Chenkai Kuang、Yuan Liu、Hanzhao (Maggie) Lin、Evan Zheran Liu、Nigamaa Nayakanti、Xiaomeng Yang、Heng-tze Cheng、Demis Hassabis、Koray Kavukcuoglu、Quoc V. Le、Thang Luong。感謝以下專家對本工作的回饋和討論:Jarod Alper、Kevin Barreto、Thomas Bloom、Sourav Chatterjee、Otis Chodosh、Michael Harris、Michael Hutchings、Seongbin Jeon、Youngbeom Jin、Aiden Yuchan Jung、Jiwon Kang、Jimin Kim、Vjekoslav Kovač、Daniel Litt、Ciprian Manolescu、Mona Merling、Agustin Moreno、Carl Schildkraut、Johannes Schmitt、Insuk Seo、Jaehyeon Seo、Cheng-Chiang Tsai、Ravi Vakil、Zhiwei Yun、Shengtong Zhang、Wei Zhang、Yufei Zhao。
第二篇論文「利用 Gemini 加速科學研究:案例研究與通用技術」的作者包括 David P. Woodruff、Vincent Cohen-Addad、Lalit Jain、Jieming Mao、Song Zuo、MohammadHossein Bateni、Simina Branzei、Michael P. Brenner、Lin Chen、Ying Feng、Lance Fortnow、Gang Fu、Ziyi Guan、Zahra Hadizadeh、Mohammad T. Hajiaghayi、Mahdi JafariRaviz、Adel Javanmard、Karthik C. S.、Ken-ichi Kawarabayashi、Ravi Kumar、Silvio Lattanzi、Euiwoong Lee、Yi Li、Ioannis Panageas、Dimitris Paparas、Benjamin Przybocki、Bernardo Subercaseaux、Ola Svensson、Shayan Taherijam、Xuan Wu、Eylon Yogev、Morteza Zadimoghaddam、Samson Zhou、Yossi Mathias、Jeff Dean、James Manyika、Vahab Mirrokni。此列表包括在 Gemini 之上構建代理推理的 Google 研究人員,以及驗證和與 Gemini 合作的學術專家合作者。我們也感謝 Corinna Cortes 對本論文的仔細審閱。
我們感謝 DeepThink 團隊其他成員提供的基礎支持:Anirudh Baddepudi、Michael Brenner、Irene Cai、Kristen Chiafullo、Paul Covington、Rumen Dangovski、Chenjie Gu、Huan Gui、Vihan Jain、Rajesh Jayaram、Melvin Johnson、Rosemary Ke、Maciej Kula、Nate Kushman、Jane Labanowski、Steve Li、Pol Moreno、Sidharth Mudgal、William Nelson、Ada Maksutaj Oflazer、Sahitya Potluri、Navneet Potti、Shubha Raghvendra、Siamak Shakeri、Archit Sharma、Xinying Song、Mukund Sundararajan、Qijun Tan、Zak Tsai、Theophane Weber、Winnie Xu、Zicheng Xu、Junwen Yao、Shunyu Yao、Adams Yu、Lijun Yu 和 Honglei Zhuang。
感謝 Quoc Le、Koray Kavukcuoglu、Demi