newsence
來源篩選

Introducing GPT-5.3-Codex-Spark

OpenAI

Introducing GPT-5.3-Codex-Spark—our first real-time coding model. 15x faster generation, 128k context, now in research preview for ChatGPT Pro users.

newsence

隆重介紹 GPT-5.3-Codex-Spark

OpenAI
16 天前

AI 生成摘要

隆重介紹 GPT-5.3-Codex-Spark,這是我們首款即時程式碼編寫模型。生成速度提升 15 倍,具備 128k 上下文視窗,現已開放給 ChatGPT Pro 用戶進行研究預覽。

推出 GPT-5.3-Codex-Spark | OpenAI

2026 年 2 月 12 日

推出 GPT‑5.3‑Codex‑Spark

Codex 中用於即時編碼的超快速模型。

今天,我們將發布 GPT‑5.3‑Codex‑Spark 的研究預覽版,這是 GPT‑5.3‑Codex 的較小版本,也是我們第一個專為即時編碼設計的模型。Codex-Spark 標誌著我們與 Cerebras 合作的第一個里程碑,該合作已於一月宣布。Codex-Spark 經過優化,在超低延遲硬體上運行時能提供近乎瞬時的感受——每秒輸出超過 1000 個 token,同時在處理現實世界的編碼任務時仍保持高度能力。

我們正在 Cerebras 上向 ChatGPT Pro 用戶分享 Codex-Spark 研究預覽版,以便開發者可以儘早開始實驗,同時我們與 Cerebras 合作增加數據中心容量、強化端到端用戶體驗,並部署我們更大的前沿模型。

我們最新的前沿模型在執行長期任務方面展現了特別的優勢,可以自主工作數小時、數天或數週而無需干預。Codex-Spark 是我們第一個專為與 Codex 即時協作而設計的模型——進行有針對性的編輯、重塑邏輯或完善界面,並立即看到結果。有了 Codex-Spark,Codex 現在同時支持長期、宏大的任務以及當下的即時工作。我們希望從開發者的使用方式中學習,並在繼續擴大訪問權限的過程中納入反饋。

發布時,Codex-Spark 擁有 128k 的上下文窗口且僅限文本。在研究預覽期間,Codex-Spark 將有其獨立的速率限制,且使用量不會計入標準速率限制。然而,當需求較高時,為了平衡所有用戶的可靠性,您可能會遇到訪問受限或暫時排隊的情況。

速度與智能

Codex-Spark 針對延遲與智能同樣重要的交互式工作進行了優化。您可以與模型進行即時協作,在它工作時進行中斷或重新引導,並通過近乎瞬時的響應進行快速迭代。由於它是為速度而調整的,Codex-Spark 保持了輕量級的默認工作風格:它進行最小化、有針對性的編輯,除非您要求,否則不會自動運行測試。

編碼

Codex-Spark 是一個針對快速推理優化的高能力小型模型。在評估代理式軟體工程能力的兩個基準測試 SWE-Bench Pro 和 Terminal-Bench 2.0 上,GPT‑5.3‑Codex‑Spark 展示了強大的性能,同時與 GPT‑5.3‑Codex 相比,完成任務所需的時間僅為其一小部分。

持續時間估計為以下各項之和:(1) 輸出生成時間(輸出 token ÷ 採樣速度)、(2) 預填充時間(預填充 token ÷ 預填充速度)、(3) 工具執行總時間,以及 (4) 總網絡開銷。

所有模型的延遲改進

在訓練 Codex-Spark 的過程中,我們發現模型速度只是即時協作方程式的一部分——我們還需要減少整個請求-響應管道的延遲。我們在框架中實施了端到端的延遲改進,這將使所有模型受益。在底層,我們簡化了響應從客戶端流向服務器並返回的方式,重寫了推理棧的關鍵部分,並重新設計了會話初始化的方式,使第一個可見的 token 更快出現,並讓 Codex 在您迭代時保持響應。通過引入持久的 WebSocket 連接和對 Responses API 內部的針對性優化,我們將每次客戶端/服務器往返的開銷減少了 80%,每個 token 的開銷減少了 30%,首個 token 出現時間(time-to-first-token)縮短了 50%。WebSocket 路徑已為 Codex-Spark 默認啟用,並將很快成為所有模型的默認設置。

由 Cerebras 提供動力

Codex-Spark 運行在 Cerebras 的 Wafer Scale Engine 3(在新窗口中打開)上——這是一款專為高速推理打造的 AI 加速器,為 Codex 提供了延遲優先的服務層。我們與 Cerebras 合作,將此低延遲路徑添加到與我們其他機群相同的生產服務棧中,因此它可以在 Codex 中無縫協作,並為我們支持未來模型做好準備。

GPU 仍然是我們訓練和推理管道的基石,並為廣泛使用提供最具成本效益的 token。Cerebras 補充了這一基礎,它在需要極低延遲的工作流中表現出色,縮短了端到端循環,使 Codex 在您迭代時感覺更具響應性。GPU 和 Cerebras 可以結合用於單個工作負載,以達到最佳性能。

可用性與細節

Codex-Spark 於今日起作為研究預覽版,在最新版本的 Codex 應用程式、CLI 和 VS Code 擴展插件中向 ChatGPT Pro 用戶推出。由於它運行在專用的低延遲硬體上,其使用受獨立的速率限制管轄,該限制可能會根據研究預覽期間的需求進行調整。此外,我們正向一小部分設計合作夥伴提供 API 中的 Codex-Spark,以了解開發者希望如何將 Codex-Spark 集成到他們的產品中。隨著我們繼續在實際工作負載下調整集成,我們將在未來幾週內擴大訪問權限。

Codex-Spark 目前僅限文本,具有 128k 上下文窗口,是超快速模型系列中的第一個。隨著我們與開發者社群進一步了解快速模型在編碼方面的優勢,我們將推出更多功能——包括更大的模型、更長的上下文長度以及多模態輸入。

Codex-Spark 包含與我們主線模型相同的安全性訓練,包括網絡安全相關訓練。我們在標準部署流程中對 Codex-Spark 進行了評估,其中包括對網絡安全和其他能力的基準評估,並確定它沒有可能達到我們《預備框架》(Preparedness Framework)中關於網絡安全或生物學高能力的閾值。

下一步計劃

Codex-Spark 是邁向具有兩種互補模式的 Codex 的第一步:長跨度推理與執行,以及用於快速迭代的即時協作。隨著時間推移,這些模式將會融合——Codex 可以讓您保持在緊密的交互循環中,同時將運行時間較長的工作委託給後台的子代理,或者在您需要廣度和速度時將任務並行分發給多個模型,這樣您就不必預先選擇單一模式。

隨著模型能力變得越來越強,交互速度成為明顯的瓶頸。超快速推理縮短了這一循環,使 Codex 的使用感覺更加自然,並為任何將創意轉化為可用軟體的人擴展了可能性。

作者

延伸閱讀

圖片

產品 | 2026 年 2 月 2 日

圖片

產品 | 2026 年 2 月 5 日

圖片

出版物 | 2026 年 2 月 5 日