OpenAI launches GPT-5.4 with Pro and Thinking versions
Techcrunch
GPT-5.4 is billed as "our most capable and efficient frontier model for professional work."
Techcrunch
GPT-5.4 is billed as "our most capable and efficient frontier model for professional work."
AI 生成摘要
GPT-5.4 被譽為我們針對專業工作最強大且最高效的前沿模型。
週四,OpenAI 發布了 GPT-5.4,這是一款被譽為「我們針對專業工作最強大且最高效的前沿模型」的新型基礎模型。除了標準版本外,GPT-5.4 還提供推理模型(GPT-5.4 Thinking)或針對高效能優化的版本(GPT-5.4 Pro)。
該模型的 API 版本將提供高達 100 萬個 token 的上下文窗口,這是迄今為止 OpenAI 提供的最大上下文窗口。
OpenAI 還強調了 token 效率的提升,表示 GPT-5.4 能夠以比其前代產品顯著更少的 token 解決同樣的問題。
新模型在基準測試結果上有顯著提升,包括在電腦使用基準測試 OSWorld-Verified 和 WebArena Verified 中獲得創紀錄的分數。新模型在 OpenAI 針對知識工作任務的 GDPval 測試中也獲得了創紀錄的 83% 分數。
根據 Mercor 執行長 Brendan Foody 的聲明,GPT-5.4 在旨在測試法律和金融專業技能的 Mercor APEX-Agents 基準測試中也處於領先地位。
Foody 在聲明中表示:「[GPT-5.4] 擅長創建長週期的交付成果,如簡報投影片、財務模型和法律分析,在提供頂尖性能的同時,運行速度比競爭對手的前沿模型更快且成本更低。」
GPT-5.4 延續了該公司限制幻覺和事實錯誤的努力。OpenAI 表示,與 GPT 5.2 相比,新模型在單個主張中犯錯的可能性降低了 33%,整體回覆包含錯誤的可能性降低了 18%。
作為發布的一部分,OpenAI 重新設計了 GPT-5.4 API 版本管理工具調用(tool calling)的方式,引入了一個名為「工具搜尋」(Tool Search)的新系統。以前,在調用模型時,系統提示會列出所有可用工具的定義——隨著可用工具數量的增加,這個過程可能會消耗大量 token。新系統允許模型根據需要查找工具定義,從而在具有多個可用工具的系統中實現更快、更便宜的請求。
OpenAI 還納入了一項新的安全評估,以測試其模型的思維鏈(chain-of-thought),即模型在執行多步驟任務時顯示其思考過程的運行評論。AI 安全研究人員長期以來一直擔心推理模型可能會誤導其思維鏈,測試表明在適當的情況下這種情況確實會發生。
OpenAI 的新評估顯示,在 GPT-5.4 的 Thinking 版本中,欺騙行為發生的可能性較低,「這表明該模型缺乏隱藏其推理的能力,且思維鏈(CoT)監控仍然是一個有效的安全工具。」
主題
AI 編輯
正在積極擴張?籌款?計劃下一次發布?2026 年 TechCrunch 創辦人峰會提供實戰指南,並可直接接觸 1,000 多名正在建設、支持和成交的創辦人與投資者。3 月 13 日前註冊最高可省 300 美元。
黃仁勳表示 NVIDIA 正在減少對 OpenAI 和 Anthropic 的投入,但他的解釋引發的問題比解決的更多
報告稱,Anthropic 執行長 Dario Amodei 稱 OpenAI 關於軍事交易的消息是「徹頭徹尾的謊言」
在國防部交易後,ChatGPT 的卸載量激增了 295%
用戶正放棄 ChatGPT 轉向 Claude —— 這裡是如何切換的方法
MyFitnessPal 已收購 Cal AI,這是一款由青少年開發的熱門卡路里應用程式
Anthropic 的 Claude 報告大規模停機
Anthropic 為自己設下的陷阱