newsence
來源篩選

OpenAI launches GPT-5.4 with Pro and Thinking versions

Techcrunch

GPT-5.4 is billed as "our most capable and efficient frontier model for professional work."

newsence

OpenAI 推出 GPT-5.4,包含 Pro 與 Thinking 版本

Techcrunch
大約 4 小時前

AI 生成摘要

GPT-5.4 被譽為我們針對專業工作最強大且最高效的前沿模型。

OpenAI 推出 GPT-5.4,包含 Pro 與 Thinking 版本 | TechCrunch

週四,OpenAI 發布了 GPT-5.4,這是一款被譽為「我們針對專業工作最強大且最高效的前沿模型」的新型基礎模型。除了標準版本外,GPT-5.4 還提供推理模型(GPT-5.4 Thinking)或針對高效能優化的版本(GPT-5.4 Pro)。

該模型的 API 版本將提供高達 100 萬個 token 的上下文窗口,這是迄今為止 OpenAI 提供的最大上下文窗口。

OpenAI 還強調了 token 效率的提升,表示 GPT-5.4 能夠以比其前代產品顯著更少的 token 解決同樣的問題。

新模型在基準測試結果上有顯著提升,包括在電腦使用基準測試 OSWorld-Verified 和 WebArena Verified 中獲得創紀錄的分數。新模型在 OpenAI 針對知識工作任務的 GDPval 測試中也獲得了創紀錄的 83% 分數。

根據 Mercor 執行長 Brendan Foody 的聲明,GPT-5.4 在旨在測試法律和金融專業技能的 Mercor APEX-Agents 基準測試中也處於領先地位。

Foody 在聲明中表示:「[GPT-5.4] 擅長創建長週期的交付成果,如簡報投影片、財務模型和法律分析,在提供頂尖性能的同時,運行速度比競爭對手的前沿模型更快且成本更低。」

GPT-5.4 延續了該公司限制幻覺和事實錯誤的努力。OpenAI 表示,與 GPT 5.2 相比,新模型在單個主張中犯錯的可能性降低了 33%,整體回覆包含錯誤的可能性降低了 18%。

Disrupt 2026:科技生態系,盡在其中

你的下一輪融資。你的下一位員工。你的下一個突破機會。盡在 TechCrunch Disrupt 2026,屆時將有 10,000 多名創辦人、投資者和科技領袖齊聚一堂,參加為期三天、超過 250 場的實戰會議、強大的引薦和定義市場的創新。立即註冊可節省高達 400 美元。

TechCrunch 創辦人峰會(Founder Summit)最高可省 300 美元或 30%

1,000 多名創辦人和投資者將齊聚 2026 年 TechCrunch 創辦人峰會,進行為期一天專注於增長、執行和現實規模擴張的活動。向塑造行業的創辦人和投資者學習。與處於相似增長階段的同行建立聯繫。帶走可以立即應用的策略。優惠於 3 月 13 日結束。

作為發布的一部分,OpenAI 重新設計了 GPT-5.4 API 版本管理工具調用(tool calling)的方式,引入了一個名為「工具搜尋」(Tool Search)的新系統。以前,在調用模型時,系統提示會列出所有可用工具的定義——隨著可用工具數量的增加,這個過程可能會消耗大量 token。新系統允許模型根據需要查找工具定義,從而在具有多個可用工具的系統中實現更快、更便宜的請求。

OpenAI 還納入了一項新的安全評估,以測試其模型的思維鏈(chain-of-thought),即模型在執行多步驟任務時顯示其思考過程的運行評論。AI 安全研究人員長期以來一直擔心推理模型可能會誤導其思維鏈,測試表明在適當的情況下這種情況確實會發生。

OpenAI 的新評估顯示,在 GPT-5.4 的 Thinking 版本中,欺騙行為發生的可能性較低,「這表明該模型缺乏隱藏其推理的能力,且思維鏈(CoT)監控仍然是一個有效的安全工具。」

主題

Russell Brandom

AI 編輯

正在積極擴張?籌款?計劃下一次發布?2026 年 TechCrunch 創辦人峰會提供實戰指南,並可直接接觸 1,000 多名正在建設、支持和成交的創辦人與投資者。3 月 13 日前註冊最高可省 300 美元。

最受歡迎

黃仁勳表示 NVIDIA 正在減少對 OpenAI 和 Anthropic 的投入,但他的解釋引發的問題比解決的更多

黃仁勳表示 NVIDIA 正在減少對 OpenAI 和 Anthropic 的投入,但他的解釋引發的問題比解決的更多

報告稱,Anthropic 執行長 Dario Amodei 稱 OpenAI 關於軍事交易的消息是「徹頭徹尾的謊言」

報告稱,Anthropic 執行長 Dario Amodei 稱 OpenAI 關於軍事交易的消息是「徹頭徹尾的謊言」

在國防部交易後,ChatGPT 的卸載量激增了 295%

在國防部交易後,ChatGPT 的卸載量激增了 295%

用戶正放棄 ChatGPT 轉向 Claude —— 這裡是如何切換的方法

用戶正放棄 ChatGPT 轉向 Claude —— 這裡是如何切換的方法

MyFitnessPal 已收購 Cal AI,這是一款由青少年開發的熱門卡路里應用程式

MyFitnessPal 已收購 Cal AI,這是一款由青少年開發的熱門卡路里應用程式

Anthropic 的 Claude 報告大規模停機

Anthropic 的 Claude 報告大規模停機

Anthropic 為自己設下的陷阱

Anthropic 為自己設下的陷阱