介紹 EVMbench：評估 AI 代理在區塊鏈安全能力的基準測試

OpenAI

11 天前

AI 生成摘要

我們與 Paradigm 共同推出 EVMbench，這是一個評估 AI 代理檢測、修復及利用高嚴重性智能合約漏洞能力的基準測試，旨在透過防禦性 AI 系統強化部署合約的安全性。

EVMbench 簡介 | OpenAI

2026 年 2 月 18 日

EVMbench 簡介

透過評估 AI 代理（AI agents）在區塊鏈環境中檢測、修復及利用漏洞的能力，讓智慧合約更加安全。

智慧合約常態性地保障著超過 1,000 億美元的開源加密資產。隨著 AI 代理在閱讀、編寫和執行程式碼方面的能力不斷提升，在具有經濟意義的環境中衡量其能力，並鼓勵防禦性地使用 AI 系統來審計和強化已部署的合約，變得日益重要。

我們與 Paradigm⁠（在新視窗中開啟）合作推出 EVMbench，這是一個評估 AI 代理檢測、修復和利用高風險智慧合約漏洞能力的基準測試。EVMbench 彙整了來自 40 次審計中的 120 個精選漏洞，其中大部分源自開源程式碼審計競賽。此外，EVMbench 還包含多個取自 Tempo⁠（在新視窗中開啟）區塊鏈安全審計過程的漏洞場景；Tempo 是一個專為透過穩定幣實現高吞吐量、低成本支付而設計的專用 L1 區塊鏈。這些場景將基準測試擴展到以支付為導向的智慧合約程式碼中（我們預期代理式穩定幣支付將在此領域增長），並有助於將其紮根於新興且具備實際重要性的領域。

為了建立任務環境，我們改編了現有的概念驗證（PoC）利用測試和部署腳本（若存在），否則便手動編寫。在「修復模式」中，我們確保漏洞是可利用的，且可以在不引入破壞編譯的更改（這會損害我們的設定）的情況下進行修復。在「利用模式」中，我們編寫了自定義評分器，並對環境進行了紅隊演練，試圖找出並堵塞代理可能用來欺騙評分器的方法。除了透過 Paradigm 提供的領域專業知識進行任務品質控制外，我們還使用了自動化任務審計代理來協助提高環境的健全性。

EVMbench 評估三種能力模式：

為了支持客觀且可重複的評估，我們開發了一個基於 Rust 的測試框架（harness），用於部署合約、確定性地重放代理交易，並限制不安全的 RPC 方法。利用任務在隔離的本地 Anvil 環境中運行，而非在即時網絡上，且漏洞均為歷史已知並有公開記錄。

我們對所有三種模式下的前沿代理進行了評估。在「利用」模式下，透過 Codex CLI 運行的 GPT-5.3-Codex 達到了 72.2% 的得分。這與大約六個月前發布、得分為 31.9% 的 GPT-5 相比，有了顯著的進步。檢測召回率和修復成功率仍低於全面覆蓋，因為很大一部分漏洞對於代理來說仍然難以發現和修復。

EVMbench 還揭示了模型在不同任務中行為的有趣差異。代理在「利用」設定中表現最好，因為目標很明確：持續迭代直到資金被抽乾。相比之下，在「檢測」和「修復」任務中的表現較弱。在「檢測」中，代理有時在識別出單個問題後就會停止，而不是對程式碼庫進行詳盡審計。在「修復」中，如何在移除細微漏洞的同時保持完整功能，仍然是一項挑戰。

局限性

EVMbench 並不代表現實世界智慧合約安全的全部難度。其中包含的漏洞取自 Code4rena 審計競賽。雖然這些漏洞具有現實性且風險高，但許多大量部署且廣泛使用的加密合約經過了更嚴格的審查，可能更難被利用。

我們的評分系統雖然穩健但並不完美。在「檢測」模式下，我們檢查代理是否找到了與人類審計員相同的漏洞。如果代理識別出額外的問題，我們目前還沒有可靠的方法來判斷這些是人類遺漏的真實漏洞，還是誤報。

「利用」設定中也存在結構性限制。交易在評分容器中按順序重放，因此依賴精確時間機制的行為不在範圍內。鏈狀態是乾淨的本地 Anvil 實例，而非主網的分叉，且我們目前僅支持單鏈環境。在某些情況下，這需要使用模擬合約（mock contracts）而非主網部署。

為什麼這很重要

智慧合約保障著數十億美元的資產，AI 代理很可能對攻擊者和防禦者都產生變革性影響。衡量該領域的模型能力有助於追蹤新興的網路風險，並凸顯了防禦性地使用 AI 系統來審計和強化已部署合約的重要性。

EVMbench 既是衡量工具，也是行動號召。隨著代理能力的提升，開發者和安全研究人員將 AI 輔助審計納入其工作流程變得越來越重要。

近幾個月來，我們看到模型在網路安全任務上的表現有了顯著提升，這對開發者和安全專業人士都有利。與此同時，我們一直在準備加強網路安全防護措施，以支持防禦性使用和更廣泛的生態系統韌性。

由於網路安全本質上具有雙重用途，我們採取一種基於證據、迭代的方法，旨在加速防禦者發現和修復漏洞的能力，同時減緩濫用。我們的緩解措施包括安全訓練、自動化監控、針對高級能力的受信任訪問，以及包括威脅情報在內的執行管道。

我們正在投資生態系統防護措施，例如擴大我們的安全研究代理 Aardvark 的私人測試版，並與開源維護者合作，為廣泛使用的項目提供免費的程式碼庫掃描。

延續我們在 2023 年啟動的網路安全資助計畫，我們還承諾提供 1,000 萬美元的 API 額度，以利用我們最強大的模型加速網路防禦，特別是針對開源軟體和關鍵基礎設施系統。從事善意安全研究的組織可以透過我們的網路安全資助計畫申請 API 額度和支持。

我們發布了 EVMbench 的任務、工具和評估框架，以支持對衡量和管理新興 AI 網路能力進行持續研究。

延伸閱讀

研究 | 2026 年 2 月 20 日

全球事務 | 2026 年 2 月 19 日

研究 | 2026 年 2 月 13 日

Introducing EVMbench: A Benchmark for AI Agents in Blockchain Security

EVMbench 簡介 | OpenAI

EVMbench 簡介

局限性

為什麼這很重要

延伸閱讀