In early 2026, we evaluated our AI 2027 predictions and found that while qualitative milestones are largely on track, quantitative progress is moving at approximately 65% of the predicted pace. This suggests that the transition from full coding automation to superintelligence is now more likely to occur between mid-2028 and mid-2030.
2024 年的 AI 可以遵循特定指令:它們能將要點轉化為電子郵件,將簡單請求轉化為可運行的程式碼。到了 2025 年, AI 的運作更像員工。編程 AI 越來越像自主代理而非單純的助手:透過 Slack 或 Teams 接收指令,並自行進行實質性的程式碼更改,有時能節省數小時甚至數天的時間。研究代理則花半小時搜尋網路來回答你的問題。
雖然模型在廣泛技能上都有進步,但其中一項脫穎而出:OpenBrain 專注於能加速 AI 研究的 AI。他們希望在與中國(領先公司稱為「DeepCent」)及美國競爭對手的雙重軍備競賽中獲勝。他們能自動化的研發(R&D)週期越多,速度就越快。因此,當 OpenBrain 完成訓練 Agent-1(一個內部開發的新模型)時,它在許多方面都很出色,但在協助 AI 研究方面表現卓越。
AI 在編程方面提供了很大幫助,但在 AI 研究的其他部分幫助較少(即便如此,我們當時並未預測 AI 會在所有 AI 研究領域都表現卓越)。
OpenBrain 有一份(或稱「Spec」),這是一份書面文件,描述了引導模型行為的目標、規則、原則等。Agent-1 的規範結合了一些模糊的目標(如「協助使用者」和「不要違法」)以及一長串具體的應做與不應做事項(「不要說這個特定的詞」、「這裡是如何處理這個特定情況」)。利用 AI 訓練其他 AI 的技術,模型記住了規範並學會仔細推敲其準則。到訓練結束時,AI 有望變得有助(服從指令)、無害(拒絕協助詐騙、製造炸彈和其他危險活動)且誠實(抵制透過幻覺引用或偽造任務完成來從易受騙的人類那裡獲得更好評分的誘惑)。
在我們發布時這已經是事實。現在依然如此,但就預測而言,這是一個容易命中的預測。
OpenBrain 的對齊團隊足夠謹慎,會懷疑這些勝利是深刻的還是膚淺的。訓練完成的模型是否對始終保持誠實有某種穩健的承諾?或者這會在未來的某些情況下崩潰,例如因為它將誠實視為目標而非終極目標?或者它只是學會在評估過程可以檢查的事情上保持誠實?它是否會像人類一樣有時欺騙自己?要對這些問題給出定論,需要機械解釋性(mechanistic interpretability)——本質上是觀察 AI 內部並讀取其思想的能力。可惜,解釋性技術目前還不夠先進。
AI 研發提升研究與調查。 在 AI 2027 中,我們描繪到 2026 年底 AI 軟體研發提升將達到 1.9 倍。METR 現在進行了一項,以衡量 2025 年初的 AI 編程工具如何影響開源開發者的生產力。主要結果是速度放緩:允許使用 AI 工具時,任務花費的時間更長。最近在不同的環境下,Anthropic ,獲得了編程提升 2 倍的中位數。由於算力瓶頸,這仍意味著整個 AI 軟體研發的提升遠低於 2 倍。我們將密切關注編程提升的研究與調查,以及任何涵蓋更廣泛 AI 研發領域的報告。
AGI 公司的營收與估值。 在 AI 2027 中,我們描繪領先公司到 2026 年年化營收將達到 550 億美元,估值達到 2.5 兆美元,使其成為世界上最有價值的公司之一。我們認為這些是 AI 提供現實世界價值的良好指標。
。 來自 AI 2027 時間線模型的 AI-2027 速度中心軌跡預測,到 2026 年底將達到約 3 個工作週的 80% 編程時間跨度。時間跨度在我們較新的 中也扮演著重要角色。在該模型中,一條手工設定的 AI-2027 速度軌跡預測到 2026 年底時間跨度約為一年。我們將繼續追蹤時間跨度。遺憾的是,隨著 AI 能力增強,這將變得越來越難以衡量。
其他基準測試。 請參閱,了解我們認為最重要的基準測試樣本。遺憾的是,除了編程時間跨度外,我們在 AI 2027 中並未登記這些基準測試的預測,因為在撰寫時它們尚不存在。我們希望 2026 年能建立更高難度的基準測試。
雖然我們預計能從這些指標中學到很多,但我們猜測,到 2026 年底可能仍難以高度確信 AI 飛躍是否會在 2027 年開始。
對個別數值進行匯總的方法會過度加重算力類別的權重,因為 15 個個別預測中有 7 個與算力有關。我們不希望僅給予算力預測過多權重,因為我們認為它在追蹤 AI 進展速度方面不如其他領域核心,因此我們改為匯總類別的平均值/中位數。我們對 AI 時間線的大部分不確定性來自於給定算力能達到何種能力水平,而我們可以直接追蹤能力水平的指標。