當前最強 SOTA 模型在未經安全評估的情況下發佈

Lesswrong

大約 3 小時前

AI 生成摘要

OpenAI 發佈了 GPT-5.4 Pro，這可能是目前全球處理複雜任務最強的模型，卻在沒有公佈系統卡或外部安全評估的情況下上線，引發了對災難性誤用風險的擔憂。我們認為這種缺乏透明度的做法開了惡劣先例，並建議由獨立團隊進行部署後的風險評估，以追蹤前沿模型的能力。

TL;DR： OpenAI 於 2026 年 3 月 5 日發佈了 GPT-5.4 Thinking 與 GPT-5.4 Pro。GPT-5.4 Pro 很可能是目前世界上處理許多災難性風險相關任務表現最強的模型，包括生物研究研發、協調網路攻擊行動以及電腦操作。該模型沒有提供系統卡（System Card），且據我們所知，是在沒有進行任何安全性評估的情況下發佈的。我們認為這種情況至少在 GPT-5.2 Pro 時就發生過一次，並針對團隊如何在模型部署後進行快速、獨立的風險評估提出了建議。

GPT-5.4 Pro 表現極其出色

OpenAI 了 GPT-5.4 Thinking（人們通常所指的 GPT-5.4）以及 GPT-5.4 Pro^()，後者專為「希望在複雜任務上獲得極限效能的人」而設計。GPT-5.4 Pro 的價格極其昂貴，且完成任務所需的時間非常長。然而，它很可能是目前世界上在多個領域表現最強的模型，包括專家級問答和瀏覽器使用。在發佈公告中，OpenAI 展示了 GPT-5.4 Pro 在部分能力基準測試中的表現。以下是三大前沿模型基準測試分數的對比；我們僅報告所有模型系統卡中均有記載的分數^()：

| 基準測試 | Gemini 3.1 Pro | GPT-5.4 Pro | Opus 4.6 |
| :--- | :--- | :--- | :--- |
| GPQA Diamond | 94.3% | 94.4% | 91.3% |
| HLE (無工具) | 44.4% | 42.7% | 40.0% |
| HLE (含工具) | 51.4% | 58.7% | 53.1% |
| ARC-AGI-2 (已驗證) | 77.1% | 83.3% | 68.8% |
| BrowseComp | 85.9% | 89.3% | 84.0% |

基於這些結果，我們預期 GPT-5.4 Pro 在病毒學能力測試（Virology Capabilities Test）、智慧體生物能力基準（Agentic-Bio Capabilities Benchmark）、FrontierMath，以及任何依賴學術推理、廣泛知識庫且能隨推理算力擴展的領域中，都將達到領先水準（SOTA）。BrowseComp 的表現以及在 FinanceAgent v1.1（61.5%）的領先成績，讓我們認為它在自動化一般辦公室工作方面可能也是當前的最強模型。

要說它是全方位最強，最大的缺口在於智慧體程式碼編寫（agentic coding），但考慮到它在 ARC-AGI-2 中展現的抽象推理領先水準，我們認為，它在 SWE-Bench 和 Terminal-Bench 2.0 等測試上很可能會超越 Opus 4.6 和 Gemini 3.1 Pro。

然而，它在發佈時並未附帶任何公開的安全性評估。與僅針對 GPT-5.4 Thinking。GPT-5.4 Pro 有可能在內部進行了安全特性測試（我們希望至少運行了像 Petri 這樣的測試，以確保沒有出現瘋狂的分佈偏移？），但如果屬實，我們也無法找到任何相關的公開資訊。我們願意下重注賭 OpenAI 在 Pro 發佈前，並未運行一套至少與 GPT-5.4 Thinking 模型卡中同樣全面的內部評估。

GPT-5.4 Pro 極不可能構成災難性的濫用或對齊風險，儘管這很大程度上歸功於 OpenAI 閉源模型自帶的緩解措施（例如 CBRNE 分類器）。然而，不發佈任何外部安全性評估開了一個惡劣的先例，並讓研究人員對前沿模型當前構成的風險產生錯誤的理解。此外，如果 GPT-5.4 Pro 在雙用途任務（如 EVM-Bench 或 LAB-Bench）上的表現明顯更好，我們本可以據此將我們的風險關鍵期時間表進行相應更新。

這種情況已經發生過一次

我們之所以會追蹤這件事，唯一的原因是我（Parv）不小心花了 Andy $6,000 美元的算力，在 GPT-5.2 Pro 而非 GPT-5.2 Thinking 上運行了 ^()，結果我們注意到效能有顯著提升。

事實上，不含工具的 GPT-5.2 Pro 在 Fig-QA 中的表現，與相當。隨後我們發現，我們無法證實這一結果，也無法證實任何安全性相關的基準測試表現，因為 GPT-5.2 Pro 在發佈時同樣沒有系統卡。

GPT-5.2 Pro 於 2025 年 12 月 11 日發佈，而第一個似乎超越它的模型 Opus 4.6 則於 2026 年 2 月 5 日發佈。我們的中位數推測是：我們曾擁有一個（至少）在雙用途生物任務上達到領先水準的模型長達兩個月，它在沒有任何安全性評估的情況下發佈，且廣大的安全社群基本上忽視了它的存在。

我們該怎麼辦？？

我們基本上假設美國三大實驗室（OAI、Ant、GDM）至少會在每個領先模型發佈時，發佈一份符合模型卡概念的文件，這很好，因為它能幫助我們更好地掌握風險。我們現在認為我們錯了，我們不能再假設實驗室會在發佈最強模型時提供任何安全性相關的基準測試數據。然而，這些數據仍然極其重要，特別是對於追蹤像 CBRNE 能力提升和網路攻擊等不均衡的能力發展。

我們建議現有組織中至少應成立一個 1-3 人的團隊：

建立一套「一鍵執行」的框架，在模型公開發佈後立即運行現有的大型評估套件，並生成一份公開報告，描述其潛在的災難性濫用風險，並讓我們洞察其是否存在謀劃（scheming）、平庸的不對齊（prosaically misaligned）等情況。初期，這可能僅包含 ABC-Bench、VCT、Petri 和 EVM-Bench^()。
針對每一個沒有實質系統卡的主要模型發佈運行該框架^()。

我們有一份認為該框架應包含的評估清單，以及其他如何順利執行的想法——請與我們聯繫！

一個更具雄心的版本還將創建新的評估，並包含解釋性（interp）等手段以降低隱藏實力（sandbagging）的下限。它還將與安全研究人員、華盛頓特區的政策制定者以及美國政府國家安全部門的相關方協調，以他們易於理解的方式呈現評估結果。

我們也為（據我們所知）此前沒有人對此發表評論感到尷尬，而且我們兩個人花了這麼長時間才注意到這一點。那麼，我們該如何？

實驗室以外的更多人需要在系統卡發佈後的幾天內完整閱讀它們。建立讀書會，製作一個非常好的智慧體腳手架，找出一種方法將重要資訊輸入大腦並察覺不一致之處。
也許有人可以開發一個非常出色的 Claude Code 技能來處理新模型發佈的資訊？這看起來是一個大約需要 2 小時的任務。如果你想開發這個，請聯繫我們！
實驗室安全團隊應透過前沿模型論壇（Frontier Model Forum）和其他更非正式的協調機制，尋求基準測試的標準化，並建立發佈大量安全基準測試數據的規範。
安全團隊應優先發佈安全基準測試數據集，並在適當情況下透過受信任的訪問計劃（Trusted Access Programs）進行。這將使安全社群能夠直接比較不同模型的基準測試分數，並在「新模型在這次破壞評估中得分較低」之外，更好地感知風險。

在實驗室本身缺乏對前沿模型進行全面且具資訊量的安全性評估的情況下，我們希望社群能夠填補這一空白，同時推動實驗室提高透明度^()。

^() 我們在這裡沒有回答的一個問題是「Pro 到底是什麼？？」它是一個不同的模型，還是一個奇怪的腳手架，或者是對 Thinking 的微調，還是別的什麼？我們目前沒有確切的答案；希望能了解更多。
^() Claude 有一些重要的註記：「有幾點值得注意：HLE『含工具』行使用了不同的測試環境（Gemini 使用搜尋黑名單 + 程式碼；OpenAI 的環境說明方式不同），因此該行在某種程度上是無法直接比較的。BrowseComp 也是如此——Gemini 指定為『搜尋 + Python + 瀏覽』，而 OpenAI 的工具設置細節並不完全相同。GPQA Diamond 在 94.3% 對 94.4% 基本上是平手。」
^() 這是與 Yong 一起對 Kimi K2.5 進行安全性評估期間發生的，該工作與我們上面提出的建議一致。
^() 這裡的主要障礙是成本，但我們認為資助者會感興趣投入算力；我們已經看到社群中許多利益相關者（包括政策和技術圈）的初步興趣。
^() 這對於更好地掌握中國開源模型的風險也將非常有用。
^() 非常感謝 Kimi K2.5 評估團隊的每個人，沒有他們，我們永遠不會遇到這件事。我們也要感謝 Claude Opus 4.6，它在 LAB-Bench 上誤運行了 Pro 而非 Thinking，並為了這個最終證明是有意義的目標燒掉了 6,000 美元。我們保證我們是稱職的研究人員，並且已經吸取了教訓。

The Current SOTA Model Was Released Without Safety Evaluations

GPT-5.4 Pro 表現極其出色

這種情況已經發生過一次

我們該怎麼辦？？