真正的飛輪

hsheng.org

15 天前

AI 生成摘要

作者認為，前沿 AI 發展的關鍵瓶頸在於有效的數據點吞吐量，而由代理加速的基礎設施才是真正的飛輪，而非依賴人類輸入的系統。

真實的飛輪 | 盛浩

真實的飛輪

TL;DR: 需要人類來轉動的飛輪是跑步機。編碼代理不是。

大約一年前，就在我的團隊（經過訓練後）發布了幾個主要的 GPT‑4o 更新之後，我感到精疲力盡——興奮，但又奇怪地迷失方向。

DAU 看起來很棒。保留組顯示了個位數的提升。在任何正常的產品組織中，這都是值得慶祝的。

而且，在某種意義上，我們找到了搜尋/推薦/廣告人員一直視為聖杯的東西：龐大的用戶群；一個將行為轉化為訓練訊號的合理故事；以及一群可以堆疊無數小勝利直到指標移動的 MLE。

但它仍然不是 AGI。這是舊的舒適範例。這些勝利並沒有複合成能力上的飛躍；曲線隨時可能變平。

感覺就像在《軟體物件的生命週期》中養育一個 digient——它們不斷變得更好，但它們不會長大。

這種意識讓我感到沮喪。我開始尋找不同類型的工作。

一些飛輪

在搜尋/推薦/廣告中，典型的飛輪是：你發布，用戶出現，行為變成訊號，模型改進，然後你再次發布。

在規模上，用戶群不僅是獎品——它是慣性。數據不再感覺像燃料，而開始像儲存的動量：你儲存它，然後花費它來更快地移動。

自動駕駛也是同樣的故事，只是名詞不同：里程變成邊緣案例；邊緣案例變成自主性；自主性帶來更多的里程。

真實的飛輪

需要人類來轉動的飛輪是跑步機。

在迴圈中有人類的情況下，迭代速度受到會議、審查、協調以及您可以安全地一次推送的少量變更的限制。

A/B 測試是這種情況下最慢的版本：你花費數百萬次的互動來購買一個決策。即使是“更好”的迴圈——CTR/CVR 模型、隱式回饋訓練——仍然是 UI 曝光和干擾因素的下游。訊號是真實的，但它在每一步都受到人類的塑造。

真正的問題更嚴格：

如果你認真地使用過 Codex / Claude Code，你就能感受到跑步機上的第一道裂縫。一旦有足夠多的工程師相信代理是真實的，迴圈就會開始自行閉合。

數據點和研究員

我的心智模型很直白：如果你有足夠的實驗數據點，即使是一個還可以的研究員也能找到流形。

如果數據點多 10 倍，一個普通的博士生看起來就像 Ilya。

如果數據點多 10^5 倍，一個強大的代理就可以開始看起來像一個嚴肅的研究員。

不是因為理論不再重要，而是因為很多前沿工作都令人不安地接近光譜的經驗端：你通過嘗試來學習。

這裡的“數據點”不是單個訓練範例。它是由人類、GPU 和組織結構的長期推廣產生的端到端信念更新——從數據中心容量到實驗提案、數據管道、訓練運行、照看失敗以及撰寫 Slack 帖子。

一個乾淨的消融實驗。一個具有命名失敗模式和具體修復的失敗。一個暴露盲點的新評估切片。一個你可以追溯到某種能力的線上訊號。

我不認為想法供應是前沿實驗室的瓶頸。GPU 供應也不是——金錢可以購買更多的 GPU（並僱用大腦）。

瓶頸是你將一個想法轉化為高訊號數據點的速度——然後再次這樣做。

當人們說“AI 改進自身”時，首先發生的可能不是 AI 提出一個重塑格局的絕妙想法。這是一個枯燥的乘數：每個單位時間、每個 GPU、每個研究員、每個工程師的嘗試次數更多。

天才改變了分佈。代理加速的基礎設施增加了抽獎的次數。

RL 基礎設施 2026

我們正處於 AI‑2027 的敘事中。人們仍然聽到“RL 基礎設施”並想像訓練/評估管道。

那是基本要求。

我指的是以最少的人工干預來製造有效數據點的系統。我認為這已經開始發生在像 Codex 這樣的工具中。這是第一次，該工具不僅僅是一個扳手。它可以跨步驟傳達意圖。

基礎設施過去就像一台車床：剛性、專用、難以更改。越來越多地，它希望看起來像一部 iPhone：一個通用的平台，你可以隨著需求的變化而不斷地重塑它——通過添加應用程式。並且應用程式的安裝越來越順暢。

如果 2025 年是關於發布模型更新，那麼 2026 年是關於讓迴圈自行運轉。

GDM 的一些朋友一直在說他們正在做“N 中選優”。我想說：N 現在包括代理。

飛輪是一個具有增益的控制迴圈

將實驗室視為一個閉環：

“增益”產品所說的

這將迴圈分解為三個靈敏度：

如果模型增益沒有表現為更好的工具使用、自我除錯或多步驟可靠性，則此項保持較小。從“健談”模型到推理模型/編碼代理的轉變主要是此項的增加。

這是“代理在生產線內部”的術語。如果您的基礎設施組織不採用代理，並且仍然需要人工儀式才能進行每次運行——手動設置、手動除錯、手動報告——則此項仍然很小。這是本文的主要論點。

如果數據點嘈雜、不可重現或歸因不佳，則規模幾乎無法帶來能力。在短期內（例如，2026 年），我不認為代理會實質性地移動此項；它很大程度上取決於研究人員的人才密度、組織結構和領導力——即，如何產生多樣化的想法以及如何將證據匯總到決策中。

將它們相乘，您將得到 (G)，即迴圈自我加速的能力。

The Real Flywheel

真實的飛輪 | 盛浩

真實的飛輪

一些飛輪

真實的飛輪

數據點和研究員

RL 基礎設施 2026

飛輪是一個具有增益的控制迴圈

“增益”產品所說的

評論