The Current SOTA Model Was Released Without Safety Evaluations
Lesswrong
OpenAI released GPT-5.4 Pro, currently the world's most powerful model for complex tasks, without publishing a system card or external safety evaluations, raising concerns about catastrophic misuse risks. We argue that this lack of transparency sets a dangerous precedent and recommend that independent teams conduct post-deployment risk assessments to track frontier model capabilities.
然而,它在發佈時並未附帶任何公開的安全性評估。與僅針對 GPT-5.4 Thinking。GPT-5.4 Pro 有可能在內部進行了安全特性測試(我們希望至少運行了像 Petri 這樣的測試,以確保沒有出現瘋狂的分佈偏移?),但如果屬實,我們也無法找到任何相關的公開資訊。我們願意下重注賭 OpenAI 在 Pro 發佈前,並未運行一套至少與 GPT-5.4 Thinking 模型卡中同樣全面的內部評估。
GPT-5.4 Pro 極不可能構成災難性的濫用或對齊風險,儘管這很大程度上歸功於 OpenAI 閉源模型自帶的緩解措施(例如 CBRNE 分類器)。然而,不發佈任何外部安全性評估開了一個惡劣的先例,並讓研究人員對前沿模型當前構成的風險產生錯誤的理解。此外,如果 GPT-5.4 Pro 在雙用途任務(如 EVM-Bench 或 LAB-Bench)上的表現明顯更好,我們本可以據此將我們的風險關鍵期時間表進行相應更新。
這種情況已經發生過一次
我們之所以會追蹤這件事,唯一的原因是我(Parv)不小心花了 Andy $6,000 美元的算力,在 GPT-5.2 Pro 而非 GPT-5.2 Thinking 上運行了 ^(),結果我們注意到效能有顯著提升。
事實上,不含工具的 GPT-5.2 Pro 在 Fig-QA 中的表現,與 相當。隨後我們發現,我們無法證實這一結果,也無法證實任何安全性相關的基準測試表現,因為 GPT-5.2 Pro 在發佈時同樣沒有系統卡。
GPT-5.2 Pro 於 2025 年 12 月 11 日發佈,而第一個似乎超越它的模型 Opus 4.6 則於 2026 年 2 月 5 日發佈。我們的中位數推測是:我們曾擁有一個(至少)在雙用途生物任務上達到領先水準的模型長達兩個月,它在沒有任何安全性評估的情況下發佈,且廣大的安全社群基本上忽視了它的存在。
^() 非常感謝 Kimi K2.5 評估團隊的每個人,沒有他們,我們永遠不會遇到這件事。我們也要感謝 Claude Opus 4.6,它在 LAB-Bench 上誤運行了 Pro 而非 Thinking,並為了這個最終證明是有意義的目標燒掉了 6,000 美元。我們保證我們是稱職的研究人員,並且已經吸取了教訓。