newsence
來源篩選

The Real Flywheel

hsheng.org

A note on why the key bottleneck in frontier AI is effective datapoint throughput, and why agent-accelerated infra is the real flywheel.

newsence

真正的飛輪

hsheng.org
15 天前

AI 生成摘要

作者認為,前沿 AI 發展的關鍵瓶頸在於有效的數據點吞吐量,而由代理加速的基礎設施才是真正的飛輪,而非依賴人類輸入的系統。

真實的飛輪 | 盛浩

真實的飛輪

TL;DR: 需要人類來轉動的飛輪是跑步機。編碼代理不是。

大約一年前,就在我的團隊(經過訓練後)發布了幾個主要的 GPT‑4o 更新之後,我感到精疲力盡——興奮,但又奇怪地迷失方向。

DAU 看起來很棒。保留組顯示了個位數的提升。在任何正常的產品組織中,這都是值得慶祝的。

而且,在某種意義上,我們找到了搜尋/推薦/廣告人員一直視為聖杯的東西:龐大的用戶群;一個將行為轉化為訓練訊號的合理故事;以及一群可以堆疊無數小勝利直到指標移動的 MLE。

但它仍然不是 AGI。這是舊的舒適範例。這些勝利並沒有複合成能力上的飛躍;曲線隨時可能變平。

感覺就像在《軟體物件的生命週期》中養育一個 digient——它們不斷變得更好,但它們不會長大。

這種意識讓我感到沮喪。我開始尋找不同類型的工作。

一些飛輪

在搜尋/推薦/廣告中,典型的飛輪是:你發布,用戶出現,行為變成訊號,模型改進,然後你再次發布。

在規模上,用戶群不僅是獎品——它是慣性。數據不再感覺像燃料,而開始像儲存的動量:你儲存它,然後花費它來更快地移動。

自動駕駛也是同樣的故事,只是名詞不同:里程變成邊緣案例;邊緣案例變成自主性;自主性帶來更多的里程。

真實的飛輪

需要人類來轉動的飛輪是跑步機。

在迴圈中有人類的情況下,迭代速度受到會議、審查、協調以及您可以安全地一次推送的少量變更的限制。

A/B 測試是這種情況下最慢的版本:你花費數百萬次的互動來購買一個決策。即使是“更好”的迴圈——CTR/CVR 模型、隱式回饋訓練——仍然是 UI 曝光和干擾因素的下游。訊號是真實的,但它在每一步都受到人類的塑造。

真正的問題更嚴格:

如果你認真地使用過 Codex / Claude Code,你就能感受到跑步機上的第一道裂縫。一旦有足夠多的工程師相信代理是真實的,迴圈就會開始自行閉合。

數據點和研究員

我的心智模型很直白:如果你有足夠的實驗數據點,即使是一個還可以的研究員也能找到流形。

如果數據點多 10 倍,一個普通的博士生看起來就像 Ilya。

如果數據點多 10^5 倍,一個強大的代理就可以開始看起來像一個嚴肅的研究員。

不是因為理論不再重要,而是因為很多前沿工作都令人不安地接近光譜的經驗端:你通過嘗試來學習。

這裡的“數據點”不是單個訓練範例。它是由人類、GPU 和組織結構的長期推廣產生的端到端信念更新——從數據中心容量到實驗提案、數據管道、訓練運行、照看失敗以及撰寫 Slack 帖子。

一個乾淨的消融實驗。一個具有命名失敗模式和具體修復的失敗。一個暴露盲點的新評估切片。一個你可以追溯到某種能力的線上訊號。

我不認為想法供應是前沿實驗室的瓶頸。GPU 供應也不是——金錢可以購買更多的 GPU(並僱用大腦)。

瓶頸是你將一個想法轉化為高訊號數據點的速度——然後再次這樣做。

當人們說“AI 改進自身”時,首先發生的可能不是 AI 提出一個重塑格局的絕妙想法。這是一個枯燥的乘數:每個單位時間、每個 GPU、每個研究員、每個工程師的嘗試次數更多。

天才改變了分佈。代理加速的基礎設施增加了抽獎的次數。

RL 基礎設施 2026

我們正處於 AI‑2027 的敘事中。人們仍然聽到“RL 基礎設施”並想像訓練/評估管道。

那是基本要求。

我指的是以最少的人工干預來製造有效數據點的系統。我認為這已經開始發生在像 Codex 這樣的工具中。這是第一次,該工具不僅僅是一個扳手。它可以跨步驟傳達意圖。

基礎設施過去就像一台車床:剛性、專用、難以更改。越來越多地,它希望看起來像一部 iPhone:一個通用的平台,你可以隨著需求的變化而不斷地重塑它——通過添加應用程式。並且應用程式的安裝越來越順暢。

如果 2025 年是關於發布模型更新,那麼 2026 年是關於讓迴圈自行運轉。

GDM 的一些朋友一直在說他們正在做“N 中選優”。我想說:N 現在包括代理。

飛輪是一個具有增益的控制迴圈

將實驗室視為一個閉環:

“增益”產品所說的

這將迴圈分解為三個靈敏度:

如果模型增益沒有表現為更好的工具使用、自我除錯或多步驟可靠性,則此項保持較小。從“健談”模型到推理模型/編碼代理的轉變主要是此項的增加。

這是“代理在生產線內部”的術語。如果您的基礎設施組織不採用代理,並且仍然需要人工儀式才能進行每次運行——手動設置、手動除錯、手動報告——則此項仍然很小。這是本文的主要論點。

如果數據點嘈雜、不可重現或歸因不佳,則規模幾乎無法帶來能力。在短期內(例如,2026 年),我不認為代理會實質性地移動此項;它很大程度上取決於研究人員的人才密度、組織結構和領導力——即,如何產生多樣化的想法以及如何將證據匯總到決策中。

將它們相乘,您將得到 (G),即迴圈自我加速的能力。

評論

歡迎提出想法、異議和邊緣案例。

評論暫時不可用。