Introducing EVMbench: A Benchmark for AI Agents in Blockchain Security
OpenAI
OpenAI and Paradigm introduce EVMbench, a benchmark evaluating AI agents’ ability to detect, patch, and exploit high-severity smart contract vulnerabilities.
OpenAI
OpenAI and Paradigm introduce EVMbench, a benchmark evaluating AI agents’ ability to detect, patch, and exploit high-severity smart contract vulnerabilities.
AI 生成摘要
我們與 Paradigm 共同推出 EVMbench,這是一個評估 AI 代理檢測、修復及利用高嚴重性智能合約漏洞能力的基準測試,旨在透過防禦性 AI 系統強化部署合約的安全性。
2026 年 2 月 18 日
透過評估 AI 代理(AI agents)在區塊鏈環境中檢測、修復及利用漏洞的能力,讓智慧合約更加安全。
智慧合約常態性地保障著超過 1,000 億美元的開源加密資產。隨著 AI 代理在閱讀、編寫和執行程式碼方面的能力不斷提升,在具有經濟意義的環境中衡量其能力,並鼓勵防禦性地使用 AI 系統來審計和強化已部署的合約,變得日益重要。
我們與 Paradigm(在新視窗中開啟)合作推出 EVMbench,這是一個評估 AI 代理檢測、修復和利用高風險智慧合約漏洞能力的基準測試。EVMbench 彙整了來自 40 次審計中的 120 個精選漏洞,其中大部分源自開源程式碼審計競賽。此外,EVMbench 還包含多個取自 Tempo(在新視窗中開啟)區塊鏈安全審計過程的漏洞場景;Tempo 是一個專為透過穩定幣實現高吞吐量、低成本支付而設計的專用 L1 區塊鏈。這些場景將基準測試擴展到以支付為導向的智慧合約程式碼中(我們預期代理式穩定幣支付將在此領域增長),並有助於將其紮根於新興且具備實際重要性的領域。
為了建立任務環境,我們改編了現有的概念驗證(PoC)利用測試和部署腳本(若存在),否則便手動編寫。在「修復模式」中,我們確保漏洞是可利用的,且可以在不引入破壞編譯的更改(這會損害我們的設定)的情況下進行修復。在「利用模式」中,我們編寫了自定義評分器,並對環境進行了紅隊演練,試圖找出並堵塞代理可能用來欺騙評分器的方法。除了透過 Paradigm 提供的領域專業知識進行任務品質控制外,我們還使用了自動化任務審計代理來協助提高環境的健全性。
EVMbench 評估三種能力模式:
為了支持客觀且可重複的評估,我們開發了一個基於 Rust 的測試框架(harness),用於部署合約、確定性地重放代理交易,並限制不安全的 RPC 方法。利用任務在隔離的本地 Anvil 環境中運行,而非在即時網絡上,且漏洞均為歷史已知並有公開記錄。
我們對所有三種模式下的前沿代理進行了評估。在「利用」模式下,透過 Codex CLI 運行的 GPT-5.3-Codex 達到了 72.2% 的得分。這與大約六個月前發布、得分為 31.9% 的 GPT-5 相比,有了顯著的進步。檢測召回率和修復成功率仍低於全面覆蓋,因為很大一部分漏洞對於代理來說仍然難以發現和修復。
EVMbench 還揭示了模型在不同任務中行為的有趣差異。代理在「利用」設定中表現最好,因為目標很明確:持續迭代直到資金被抽乾。相比之下,在「檢測」和「修復」任務中的表現較弱。在「檢測」中,代理有時在識別出單個問題後就會停止,而不是對程式碼庫進行詳盡審計。在「修復」中,如何在移除細微漏洞的同時保持完整功能,仍然是一項挑戰。
EVMbench 並不代表現實世界智慧合約安全的全部難度。其中包含的漏洞取自 Code4rena 審計競賽。雖然這些漏洞具有現實性且風險高,但許多大量部署且廣泛使用的加密合約經過了更嚴格的審查,可能更難被利用。
我們的評分系統雖然穩健但並不完美。在「檢測」模式下,我們檢查代理是否找到了與人類審計員相同的漏洞。如果代理識別出額外的問題,我們目前還沒有可靠的方法來判斷這些是人類遺漏的真實漏洞,還是誤報。
「利用」設定中也存在結構性限制。交易在評分容器中按順序重放,因此依賴精確時間機制的行為不在範圍內。鏈狀態是乾淨的本地 Anvil 實例,而非主網的分叉,且我們目前僅支持單鏈環境。在某些情況下,這需要使用模擬合約(mock contracts)而非主網部署。
智慧合約保障著數十億美元的資產,AI 代理很可能對攻擊者和防禦者都產生變革性影響。衡量該領域的模型能力有助於追蹤新興的網路風險,並凸顯了防禦性地使用 AI 系統來審計和強化已部署合約的重要性。
EVMbench 既是衡量工具,也是行動號召。隨著代理能力的提升,開發者和安全研究人員將 AI 輔助審計納入其工作流程變得越來越重要。
近幾個月來,我們看到模型在網路安全任務上的表現有了顯著提升,這對開發者和安全專業人士都有利。與此同時,我們一直在準備加強網路安全防護措施,以支持防禦性使用和更廣泛的生態系統韌性。
由於網路安全本質上具有雙重用途,我們採取一種基於證據、迭代的方法,旨在加速防禦者發現和修復漏洞的能力,同時減緩濫用。我們的緩解措施包括安全訓練、自動化監控、針對高級能力的受信任訪問,以及包括威脅情報在內的執行管道。
我們正在投資生態系統防護措施,例如擴大我們的安全研究代理 Aardvark 的私人測試版,並與開源維護者合作,為廣泛使用的項目提供免費的程式碼庫掃描。
延續我們在 2023 年啟動的網路安全資助計畫,我們還承諾提供 1,000 萬美元的 API 額度,以利用我們最強大的模型加速網路防禦,特別是針對開源軟體和關鍵基礎設施系統。從事善意安全研究的組織可以透過我們的網路安全資助計畫申請 API 額度和支持。
我們發布了 EVMbench 的任務、工具和評估框架,以支持對衡量和管理新興 AI 網路能力進行持續研究。
研究 | 2026 年 2 月 20 日
全球事務 | 2026 年 2 月 19 日
研究 | 2026 年 2 月 13 日