隆重介紹 GPT-5.3-Codex

OpenAI

24 天前

AI 生成摘要

GPT-5.3-Codex 是一款 Codex 原生代理，將尖端的程式編寫效能與通用推理相結合，以支援長週期的現實世界技術工作。

GPT-5.3-Codex 發表 | OpenAI

2026 年 2 月 5 日

GPT‑5.3‑Codex 簡介

將 Codex 的應用範圍擴展至電腦專業工作的全方位領域。

我們正式推出一款能解鎖更多 Codex 潛能的新模型：GPT‑5.3‑Codex，這是迄今為止能力最強的代理式（agentic）程式碼模型。該模型同時提升了 GPT‑5.2‑Codex 的前沿程式碼效能，以及 GPT‑5.2 的推理與專業知識能力，並將兩者整合於單一模型中，速度更提升了 25%。這使其能夠承接涉及研究、工具使用和複雜執行的長期任務。就像同事一樣，您可以在 GPT‑5.3‑Codex 工作時對其進行引導與互動，且不會遺失上下文。

GPT‑5.3‑Codex 是我們首個在自身創建過程中發揮關鍵作用的模型。Codex 團隊利用早期版本來除錯自身的訓練過程、管理自身的部署，並診斷測試結果與評估——我們的團隊對於 Codex 能夠如此大幅加速自身開發進程感到震驚。

隨著 GPT‑5.3‑Codex 的推出，Codex 從一個能編寫和審查程式碼的代理，進化為一個幾乎能完成開發者和專業人士在電腦上所做任何事情的代理。

前沿的代理能力

GPT‑5.3‑Codex 在 SWE-Bench Pro 和 Terminal-Bench 上創下了行業新高，並在 OSWorld 和 GDPval 上表現強勁，這四項基準測試是我們用來衡量程式碼編寫、代理能力及現實世界應用能力的指標。

GPT‑5.3‑Codex 在 SWE-Bench Pro（一項針對現實世界軟體工程的嚴格評估）中實現了領先業界的效能。相較於僅測試 Python 的 SWE‑bench Verified，SWE‑Bench Pro 涵蓋了四種語言，且更具抗污染性、挑戰性、多樣性以及行業相關性。它還遠超了先前在 Terminal-Bench 2.0 上的最佳表現，該基準測試衡量了像 Codex 這樣的程式碼代理所需的終端機技能。值得注意的是，GPT‑5.3‑Codex 使用的 Token 數量比以往任何模型都少，讓使用者能構建更多內容。

結合前沿的編碼能力、美學提升和壓縮技術，該模型能完成令人驚嘆的工作，在數天內從零開始構建出功能高度複雜的遊戲和應用程式。為了測試模型的網頁開發和長期代理能力，我們要求 GPT‑5.3‑Codex 為我們開發兩款遊戲：Codex 應用程式發布時賽車遊戲的第二版，以及一款潛水遊戲。利用「開發網頁遊戲」技能以及預選的通用後續指令（如「修復錯誤」或「改進遊戲」），GPT‑5.3‑Codex 在消耗數百萬個 Token 的過程中自主進行迭代。觀看預告片並親自體驗遊戲，見證 Codex 的實力。

一款賽車遊戲，配備不同的賽車手、八張地圖，甚至還有可以用空白鍵使用的道具。點擊此處親自體驗⁠（在新視窗中開啟）！

一款潛水遊戲，您可以在其中探索各種珊瑚礁，收集所有魚類以完成您的魚類圖鑑，同時管理氧氣、壓力和危險。點擊此處親自體驗⁠（在新視窗中開啟）！

與 GPT‑5.2‑Codex 相比，當您要求 GPT‑5.3‑Codex 製作日常網站時，它能更好地理解您的意圖。現在，簡單或描述不足的提示詞會預設生成具有更多功能和合理預設設置的網站，為您將創意轉化為現實提供更強大的初始畫布。

例如，我們要求 GPT‑5.3‑Codex 和 GPT‑5.2‑Codex 構建下方的兩個登陸頁面。GPT‑5.3‑Codex 自動將年費方案顯示為折扣後的月費價格，使折扣顯得清晰且具備意圖，而非單純地倍增年費總額。它還製作了一個自動切換的證言輪播圖，包含三個不同的用戶評價而非僅一個，使生成的頁面在預設情況下更具完整性且達到生產等級。

提示詞：為 Quiet KPI 構建一個登陸頁面，這是一個對創業者友好的每週指標摘要工具。美學風格為柔和 SaaS、玻璃擬態卡片、薰衣草色到藍色的漸層、細微模糊。區塊包含：首屏（Hero）帶電子郵件擷取、樣本報告卡片網格、整合工具列、證言輪播、月繳/年繳切換、常見問題（FAQ）、頁尾。- 字體使用 Satoshi 或類似的幾何無襯線體。- 按鈕為圓角（14px 半徑），具備強烈的焦點狀態。- 加入一個優雅的滾動觸發顯示效果。

軟體工程師、設計師、產品經理和數據科學家所做的工作遠不止生成程式碼。GPT‑5.3‑Codex 旨在支援軟體生命週期中的所有工作——除錯、部署、監控、撰寫 PRD、編輯文案、用戶研究、測試、指標分析等。其代理能力超越了軟體領域，能協助您構建任何想要的東西——無論是簡報投影片還是在試算表中分析數據。

透過與我們之前 GDPval 結果類似的自定義技能，GPT‑5.3‑Codex 在 GDPval 衡量的專業知識工作上也表現強勁，與 GPT‑5.2 持平。GDPval 是 OpenAI 於 2025 年發布的一項評估，衡量模型在 44 個職業中定義明確的知識工作任務上的表現。這些任務包括製作簡報、試算表和其他工作產出。

以下是該代理產出工作的幾個範例。

提示詞 + 任務背景

GPT-5.3-Codex 輸出

OSWorld 是一個代理式電腦使用基準測試，代理必須在視覺化桌面電腦環境中完成生產力任務。GPT‑5.3‑Codex 展示了遠強於以往 GPT 模型的電腦使用能力。

在 OSWorld-Verified 中，模型利用視覺來完成多樣化的電腦任務。人類得分約為 72%。

綜合這些在程式碼、前端、電腦使用和現實世界任務中的結果，表明 GPT‑5.3‑Codex 不僅在單項任務上表現更好，更標誌著向單一、通用代理邁進的階段性轉變，該代理能夠在現實世界技術工作的全方位領域中進行推理、構建和執行。

互動式協作者

隨著模型能力變得更加強大，差距已從代理能做什麼，轉向人類如何輕鬆地與之互動、引導並監督多個並行工作的代理。Codex 應用程式讓管理和引導代理變得更加容易，而現在有了 GPT‑5.3‑Codex，互動性更強。透過新模型，Codex 會提供頻繁的更新，讓您在它工作時隨時掌握關鍵決策和進度。您無需等待最終輸出，而是可以即時互動——提問、討論方法並引導走向解決方案。GPT‑5.3‑Codex 會說明它正在做什麼，回應回饋，並讓您從頭到尾參與其中。

可在「設定 > 一般 > 後續行為」中開啟模型在應用程式工作時的引導功能。

我們如何使用 Codex 來訓練和部署 GPT‑5.3‑Codex

近期 Codex 的快速進步建立在 OpenAI 各部門長達數月或數年的研究成果之上。這些研究項目正因 Codex 而加速，OpenAI 的許多研究人員和工程師表示，他們現在的工作內容與僅僅兩個月前相比已發生了根本性的變化。即使是 GPT‑5.3‑Codex 的早期版本也展示了卓越的能力，讓我們團隊能夠利用這些早期版本來改進訓練並支援後續版本的部署。

Codex 可用於極其廣泛的任務，難以完全列舉它幫助我們團隊的所有方式。舉例來說，研究團隊使用 Codex 來監控和除錯本次發布的訓練運行。它加速了除錯基礎設施問題以外的研究：它幫助追蹤整個訓練過程中的模式，提供互動品質的深度分析，提出修復建議，並為人類研究人員構建了豐富的應用程式，以精確理解模型行為與先前模型的差異。

工程團隊使用 Codex 來優化和調整 GPT‑5.3‑Codex 的測試框架。當我們開始看到影響用戶的奇怪邊緣案例時，團隊成員使用 Codex 來識別上下文渲染錯誤，並找出快取命中率低的根本原因。GPT‑5.3‑Codex 在整個發布過程中持續幫助團隊，透過動態擴展 GPU 叢集以應對流量激增並保持延遲穩定。

在 Alpha 測試期間，一位研究人員想了解 GPT‑5.3‑Codex 在每一輪對話中完成了多少額外工作，以及相關的生產力差異。GPT‑5.3‑Codex 構思了幾個簡單的正則表達式分類器來估計澄清頻率、用戶的正負面回應、任務進度，然後在所有對話日誌上大規模運行這些分類器，並產出包含結論的報告。使用 Codex 構建的人員感到更滿意，因為代理能更好地理解他們的意圖，每輪對話進展更多，且澄清問題更少。

由於 GPT‑5.3‑Codex 與其前代產品截然不同，Alpha 測試的數據呈現出許多異常且違反直覺的結果。團隊中的一位數據科學家與 GPT‑5.3‑Codex 合作構建了新的數據流水線，並實現了比我們標準儀表板工具更豐富的結果視覺化。結果與 Codex 共同分析，它在不到三分鐘的時間內簡明扼要地總結了數千個數據點的關鍵洞察。

單獨來看，所有這些任務都是 Codex 如何幫助研究人員和產品開發者的有趣範例。綜合來看，我們發現這些新能力為我們的研究、工程和產品團隊帶來了強大的加速。

守護網路安全前沿

近幾個月來，我們看到模型在網路安全任務上的效能有了顯著提升，這對開發者和安全專業人士都有利。與此同時，我們一直在準備加強網路安全防護措施，以支援防禦性用途並增強更廣泛生態系統的韌性。

GPT‑5.3‑Codex 是我們根據「準備框架」（Preparedness Framework）歸類為網路安全相關任務具備「高能力」（High capability）的首個模型，也是我們直接訓練用於識別軟體漏洞的首個模型。雖然我們目前沒有確鑿證據表明它可以端到端地自動執行網路攻擊，但我們採取預防性措施，部署了迄今為止最全面的網路安全安全堆疊。我們的緩解措施包括安全訓練、自動監控、高級能力的信任訪問，以及包含威脅情報的執行流水線。

由於網路安全本質上具有雙重用途，我們採取基於證據的迭代方法，旨在加速防禦者發現和修復漏洞的能力，同時減緩濫用。作為其中的一部分，我們推出了「網路安全信任訪問」（Trusted Access for Cyber）試點計畫，以加速網路防禦研究。

為了防止濫用，某些被我們系統檢測為具有較高網路風險的請求可能會自動從 GPT‑5.3‑Codex 路由到 GPT‑5.2。我們正在持續完善這些防護措施。進行安全研究的開發者或認為其請求被誤分類的用戶，可以透過我們的「網路安全信任訪問」計畫申請完整權限，或使用 /feedback 指令回報問題。

我們正在投資生態系統防護，例如擴大 Aardvark（我們的安全研究代理）的私人測試版，作為我們 Codex 安全產品和工具套件的首個產品，並與開源維護者合作，為 Next.js 等廣泛使用的項目提供免費的程式碼庫掃描——上週一位安全研究人員利用 Codex 發現了已披露的漏洞。

延續 2023 年啟動的 100 萬美元網路安全資助計畫，我們還承諾提供 1000 萬美元的 API 點數，以利用我們最強大的模型加速網路防禦，特別是針對開源軟體和關鍵基礎設施系統。從事誠信安全研究的組織可以透過我們的「網路安全資助計畫」申請 API 點數和支援。

可用性與細節

GPT‑5.3‑Codex 已在 ChatGPT 付費方案中提供，凡是可以使用 Codex 的地方皆可使用：應用程式、CLI、IDE 擴充功能和網頁版。我們正致力於近期安全地開放 API 存取。

隨著本次更新，得益於我們基礎設施和推理堆疊的改進，我們現在為 Codex 用戶運行的 GPT‑5.3‑Codex 速度提升了 25%，從而實現更快的互動和更迅速的結果。

GPT‑5.3‑Codex 是針對 NVIDIA GB200 NVL72 系統共同設計、訓練並在其上提供服務的。我們感謝 NVIDIA 的合作夥伴關係。

未來展望

隨著 GPT‑5.3‑Codex 的推出，Codex 正在從編寫程式碼轉向將其作為工具來操作電腦並端到端地完成工作。透過推動程式碼代理的能力前沿，我們也正在解鎖更廣泛的知識工作類別——從構建和部署軟體到研究、分析和執行複雜任務。最初專注於成為最佳程式碼代理的目標，已成為電腦上更通用協作者的基礎，擴展了誰可以進行構建以及 Codex 的無限可能。

附錄

| 指標 | GPT-5.3-Codex (xhigh) | GPT-5.2-Codex (xhigh) | GPT-5.2 (xhigh) |
| :--- | :--- | :--- | :--- |
| SWE-Bench Pro (公開) | 56.8% | 56.4% | 55.6% |
| Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld-Verified | 64.7% | 38.2% | 37.9% |
| GDPval (勝出或平手) | 70.9% | - | 70.9% (high) |
| 網路安全奪旗賽 (CTF) 挑戰 | 77.6% | 67.4% | 67.7% |
| SWE-Lancer IC Diamond | 81.4% | 76.0% | 74.6% |

作者

附註

本部落格中的所有評估均在具備 xhigh 推理強度的 GPT-5.3-Codex 上運行。

延伸閱讀

發布日期：2026 年 2 月 5 日

產品日期：2026 年 2 月 2 日

產品日期：2025 年 12 月 18 日

Introducing GPT-5.3-Codex