大型語言模型演算法進展的本質

Lesswrong

23 天前

AI 生成摘要

我認為關於大型語言模型演算法進步呈指數級增長的說法往往具有誤導性，因為自 2018 年以來，核心學習演算法帶來的實際訓練效率提升可能不到 10 倍，而大部分被感知的進步實際上是由推論端的蒸餾技術和數據相關因素所驅動的。

(於 2026 年 2 月 9 日大幅修訂——請參閱文末的更新日誌)

關於大型語言模型（LLM）的「演算法進步」有很多討論，特別是在演算法效率呈指數級提升的背景下。例如：

：「達到設定性能閾值所需的 [訓練] 計算量大約每 8 個月減半一次」。
：「我猜今天的數字大約是每年 4 倍」。
：「排除開源模型以控制競爭效應，並除以硬體價格下降因素後，我們估計演算法效率的進步大約是每年 3 倍」。

看到三個獨立來源得出幾乎完全相同的結論——減半時間分別為 8 個月、6 個月和 7.5 個月，這確實令人欣慰。這肯定是結論可靠的標誌！

……哈哈，開玩笑的！我將論證這三個要點背後隱藏著三個完全不同的故事。前兩個要點關於訓練效率，而我認為兩者都相當具有誤導性（各自原因不同！）。第三個關於推論效率，我認為這是正確的，且主要歸功於將日益強大的前沿模型蒸餾（distillation）到它們的「迷你」表親中。

內容摘要 / 大綱

§1 是我嘗試對 LLM「演算法進步」全貌的看法。我將其分為五類：
- §1.1 是典型的「學習演算法效率改進」，與核心學習演算法本身相關（架構、分詞器、優化器等）。我將論證，使用帶有優化超參數的 Transformer 是一個重要的想法，但除此之外，從 2018 年至今的整個期間，該領域在此類別中產生的訓練效率提升可能小於 10 倍（約每年 30%）。這算是有所進步，但遠低於開頭提到的指數級增長。
- §1.2 是「長上下文窗口的解鎖者」，包括 MLA 和 YaRN 等技術，這些可能非常重要，但我不知道如何量化。
- §1.3 是「優化」，針對特定設置（硬體配置、模型規模等）。這些構成了永無止境的工作流（因為設置不斷變化），但總會有天花板——它不是一個可以持續增長的指數。
- §1.4 是「與數據相關的改進」，包括專有的真人專家數據和各種類型的模型蒸餾，兩者都有重要影響。
- §1.5 是「無法真正量化為『效率』的演算法變化」，包括 RLHF、RLVR、多模態等等。毫無疑問這些很重要，我們不應忘記它們的存在，但它們與開頭提到的指數級進步主張沒有直接關係。
§2 解釋為什麼我不相信 Epoch AI 或 Dario 關於訓練效率指數級進步的主張（見開頭）。
§3 是一個快速的常識檢查，研究，它的性能與 GPT-2 相當，但訓練成本低了 600 倍。
§4 是一個可選的加分章節，關於我為什麼關心這個話題。（並非你所想的那樣！與閱讀本文的其他所有人不同，我並不特別關心預測未來 LLM 的進展。）

本文狀態

這篇文章是我在一個我並非專家的領域快速寫就的。我期待反饋和意見！

1. 我目前理解的 LLM 演算法進步全貌

1.1 典型的學習演算法改進：Transformer 本身，加上 2018 年以來大約另外 10 倍的提升

我將此類別定義為與核心學習演算法本身相關的變化——神經架構變化、SGD 與 AdamW 等——除了下面另設章節的幾個類別。

這是我目前的印象（任何未引用的主張可能來自）：

在 2017-2018 年用 Transformer 取代 LSTM 產生了巨大的差異。
……而且規模越大，LSTM 與 Transformer 的差異就越明顯。
為 Transformer 使用正確的超參數等也非常重要，這在機器學習中是常態。但廢話，大家都知道！因此，超參數等一直都是近似最優的。……除了 2022 年才修正的一個錯誤，即從「Kaplan 縮放定律」切換到「Chinchilla 最優縮放定律」。
為什麼 Chinchilla 修正花了這麼多年才出現？可能是以下因素的結合：(1) 在訓練運行達到足夠巨大之前，它實際上並沒有產生那麼大的差異，然後在發現變得極其有用後不久，它確實就被發現了；(2) 發現這個錯誤所需的超參數掃描非常昂貴，因為它涉及運行一系列大規模的訓練。
混合專家模型（MoE）大約帶來了 2 倍的效率提升。
……但有評論者指出，（高度優化的）DeepSeek-v3 的 MoE 實現包含了一些未提及的細節。所以或許可以提高到 3 倍？
研究了此類別中的另外五項內容——SwiGLU、pre-RMSNorm、旋轉位置編碼（RoPE）、餘弦衰減學習率調度，以及分詞器的改進^()——並發現它們加起來微乎其微，總計不到 1.5 倍。^()
似乎還有更多忽略的技巧。^()（例如，該論文僅涵蓋到 2023 年中期的進展。）讓我們再給它 2 倍？

1.2 解鎖長上下文窗口的創新

如果我理解正確，原始的 Transformer 原則上 可以在任意長的上下文窗口下運行。但超過一定（較短）長度後，內存需求會災難性地將 FLOP 利用率降低到趨近於 0。接著（"MQA"）使長上下文窗口變得實用，但在相同上下文長度下性能比原始（"MHA"）Transformer 差。隨後的進一步進展（MQA → GQA → MLA）挽回了大部分性能損失，同時保持了低內存佔用。

同樣屬於「解鎖長上下文窗口」類別的還有之類的技術，這是一種從大部分為短上下文的訓練數據中獲得良好長上下文性能的技巧，基本上是將短上下文訓練的注意力層外推，作為長上下文訓練注意力層的良好初始化。這樣你需要的實際訓練就少得多，因為初始狀態已經很好了。

無論如何，這類創新似乎非常重要。具體有多重要？我不知道！我無法立即找到一個以我能理解的方式量化它的參考資料。

1.3 「優化」：大量工作，但總有天花板

這個類別是那些不會體現在 FLOP 指標中，但對成本同樣重要的東西。它包括針對特定硬體配置和訓練設置的所有細節——關於量化、並行化、FlashAttention、其他 CUDA 黑科技等的細節。我也將推測解碼（speculative decoding）等系統級優化歸入此類。

我的印象是：隨著晶片速度越來越快、並行化越來越激進，要保持高 FLOP 利用率需要付出大量努力。（根據：「你必須全力奔跑，才能留在原地。」）因此，如果我們試圖計算「演算法效率」隨時間的變化，我認為我們不會從這個類別中看到太多效果。從外部看，情況會是：某公司的 FLOP 利用率（根據 GPU 規格表達到的實際 FLOP/s 與「峰值 FLOP/s」之比）去年是 X%，今天仍然在 X% 左右，但他們正在訓練更大的模型。從外部視角來看，我們會總結說該公司的「演算法進步」為零，而其「算力增長」很高。但這種總結會掩蓋底層大量的「優化」型創新。

或者，我們不隨配置變化進行逐年比較，而是固定硬體配置和訓練設置，詢問由於這類「優化」隨時間推移效率會如何變化。我認為，如果基準是一個足夠早期的草率實現，這個乘數可能會相當大（例如 20 倍）。即使在幾個月後，當一些容易實現的目標（low-hanging fruit）消失，但仍存在長尾的小型「優化」時，這個乘數仍會很可觀（比如 3 倍）。例如，光是原始的 FlashAttention 就讓某些訓練設置的實際運行時間加快了 3 倍（但對其他設置影響較小）。很久之後，作為一個隨機例子，在 2024 年僅通過就獲得了 9% 的運行速度提升。

我不相信的是「優化」能貢獻一個不斷增長的指數，即兩年後 10 倍、四年後 100 倍、六年後 1000 倍等。這類優化是有天花板的，你只能在現有的訓練方法和硬體配置下做到最好。GPU 利用率不能超過 100%。量化不能低於 1 位元。等等。

1.4 與數據相關的改進

正如 Beren Millidge () 在中所討論的，LLM 的許多改進來自更多且/或更好的訓練數據，^() 包括：

支付給真人專家以創建高質量的專有訓練數據；
利用 AI 本身創建高質量的（合成）訓練數據，特別是通過從更大更好的模型蒸餾到更小更便宜的模型，以及/或者從更多的「思考」時間蒸餾到更少的時間。
可能還有其他事情，如過濾掉糟糕的訓練數據、改變訓練數據的呈現順序等。^()

這些與數據相關的改進影響如何？它們與開頭提到的那些指數有關嗎？我目前的看法是：

更好的數據幾乎肯定提高了頂尖模型的性能。（否則公司不會每年在專家真人數據上花費數十億美元！）請注意，這裡討論的「性能」可能是基準測試和應用程序，而不是困惑度（perplexity）。
由此推論，更好的數據也應該提高訓練效率（即減少達到任何給定性能水平所需的訓練算力），至少對於手頭擁有這類專有數據的公司來說是這樣。但我不知道這在量化上有多大影響。
如果我們將話題從訓練效率轉向推論效率，那麼關於合成數據的觀點突然變得極其重要：我認為模型蒸餾是主張推論算力在保持質量不變的情況下每年下降 3 倍的主要解釋。隨著最大最好的模型變得越來越大、越來越好，微小的蒸餾模型也隨之變好，從而超越了以前需要更大模型才能達到的質量閾值。

1.5 無法真正量化為「效率」的演算法變化

如果我們撇開開頭提到的「每年 3 倍」等引言，從更廣泛的角度來看 LLM 演算法進步的形式，我們當然會發現更多項目。這些包括：

RLHF（以及 DPO、Constitutional AI 等）；
推論時長時「推理」的興起（以及使這種「推理」成為可能的訓練和推論修改——最著名的是 RLVR，但有人聲稱某些非 RLVR 方法同樣有效 (,)）；
多模態；
工具和介面；
等等。

2. 解釋那兩個訓練效率指數主張

在開頭，我引用了 Epoch AI 和 Dario Amodei，他們聲稱演算法改進構成了一個持續多年的快速指數。我目前不相信他們中的任何一個。原因如下。

2.1 Epoch 的「8 個月減半時間」主張似乎主要是其方法論的一種奇怪產物

（所涉及的 Epoch AI 主張見於其和，我的回應完全基於。）

某些演算法變化隨著模型規模變大而變得越來越重要。具體來說，有兩個這樣的變化：從 LSTM 切換到 Transformer，以及 Chinchilla 最優訓練。

例如，假設在 2018 年規模的 LLM 中，Transformer 比 LSTM 效率高 N 倍，而在 2025 年規模的 LLM 中，Transformer 比 LSTM 效率高 10N 倍。

現在讓我們撇開其他一切，想像一個世界，我們在 2018 年從 LSTM 切換到 Transformer，然後在 2018 年到 2025 年間擴大 Transformer 的規模，期間完全沒有額外的演算法變化。在 Epoch 的方法論中，他們會說我們在 2018-2025 期間獲得了「額外」10 倍的演算法改進（每年 50%！），因為我們在某種程度上從那次一次性的 LSTM 到 Transformer 切換中榨取了越來越多的優勢。

但是……這超級令人困惑！對吧？根據假設，在 2018-2025 期間，演算法實際上根本沒有變得更好！

無論如何，重點是：實際的 Epoch 分析似乎與我在 §1.1 中的主張完全相容。

對所聲稱的指數級效率提升進行的重新分析：這主要歸功於 Transformer 本身和 Chinchilla。（這裡唯一的謎團是聲稱完全解釋了 Epoch 的「改進」……但 Gundlach 等人省略的東西（特別是 §1.2 中的「長上下文窗口解鎖者」）也應該解釋一部分 Epoch 的「改進」，對吧？所以我猜測 Gundlach 等人一定有一些細微的不準確之處抵消了差額。）

2.2 Dario 的「每年 4 倍」主張我認為很大程度上是混亂的重複計算？

我在開頭引用了。這是該引言的較長版本：

該領域不斷提出大大小小的想法，使事情變得更有效率：它可能是對模型架構的改進（對當今所有模型都使用的基礎 Transformer 架構進行微調），或者僅僅是在底層硬體上更高效地運行模型的方法。新一代硬體也有同樣的效果。這通常會使曲線發生偏移：如果創新是一個 2 倍的「算力倍數」（CM），那麼它允許你用 500 萬美元而不是 1000 萬美元在編碼任務上達到 40% 的準確率；或者用 5000 萬美元而不是 1 億美元達到 60% 等。每家前沿 AI 公司都會定期發現許多這類 CM：經常是小的（約 1.2 倍），有時是中等的（約 2 倍），偶爾會有非常大的（約 10 倍）。……在 2020 年，我的團隊發表了，表明由於演算法進步導致的曲線偏移約為每年 1.68 倍。從那以後，這個速度可能顯著加快了；而且這還沒有考慮效率和硬體因素。我猜今天的數字大約是每年 4 倍。另一個估計在。

起初，我對這段話感到莫名其妙。Dario 從事基於 Transformer 的 LLM 工作至少已有 7 年。所以我猜他是說我們僅靠演算法就進步了 $4^7 \approx 16,000$ 倍？但這太瘋狂了，對吧？

（一些評論者建議，也許 Dario 的觀點是現在每年 4 倍，但過去較低。我的回應：也許這在很小程度上是正確的，但在語境下，我認為這是，Dario 的觀點在過去七年裡至少必須大於 3000 倍。^() 我仍然認為這很瘋狂。）

那麼 Dario 到底在說什麼？？

……但我現在好像明白了。這是我目前的看法——這是我能讓一切自圓其說的唯一方式：

或許 Dario 的一些「算力倍數」實際上屬於「與數據相關的改進」類別（見上文 §1.4）（即專家真人數據、不同類型的模型蒸餾等）。我的意思是，從他寫的內容來看，這聽起來不太像，但好吧，也許是。
Dario 的一些「算力倍數」是 §1.1 中列出的那些，例如 MoE。但如果我們最終試圖解釋總計大於 3000 倍的倍數，這並不算多。
Dario 的一些「算力倍數」是 §1.2 中的長上下文窗口啟用技術。Dario 會將高達（例如）大於 100 倍的倍數歸功於這個類別嗎？他這樣做正確嗎？我相當懷疑！但我猜這是有可能的。不確定如何確定。
Dario 剩下的「算力倍數」屬於「優化」類別（見上文 §1.3）。
我認為這個類別中可能發生了一些有趣的重複計算。
例子 1： 假設 Anthropic 在一次訓練運行中有 60% 的 FLOP 利用率。然後他們購買了更多晶片，這產生了新的互連問題，導致利用率下降到 40%。接著他們通過高明的 CUDA 魔法將其恢復到 60%。我覺得 Dario 可能會將其計為演算法進步帶來的 1.5 倍算力倍數。如果是這樣，我的意思是，他確實描述了一個真實存在的事物，但我強烈傾向於將這種進步歸入「更多算力」的範疇，因為歸根結底，FLOP 利用率保持不變，而算力增加了。如果我們將其歸類為演算法進步，那麼我們很可能會重複計算，因為我們可能同時也在統計 Anthropic 的算力增長並將這兩個數字相乘。
例子 2： 假設 Anthropic 升級到了一種可以高效支持更激進量化方案的新晶片。然後 Anthropic 的員工研究演算法和 CUDA 等，使該量化方案在不損失太多性能的情況下真正發揮作用。結果是成本降低了 1.3 倍。也許 Dario 會將其計為來自「演算法進步」的 1.3 倍算力倍數。如果是這樣，同樣地，好吧，你可以這麼說。但從外部視角來看，這將顯示在「硬體」而非「演算法」類別中，因為歸根結底，變化是 Anthropic 切換到了具有更高峰值 FLOP/$ 的新晶片（因為它們支持快速的低位元 FLOP）。同樣，如果我們將此歸類為演算法效率，我們最終會重複計算。
結論是：由於天花板效應，我認為如果 §1.3 的內容佔了 Dario 那大於 3000 倍倍數的相當大一部分，那麼一定存在大量這種重複計算。

總體而言，我仍然感到困惑，我認為 Dario 可能做了很多這種重複計算的事情，或者以一種令人困惑的方式描述事物。

[天哪，我居然在對 Dario Amodei 說教 LLM 訓練的大局觀，這感覺真奇怪！他對 LLM 訓練的了解比地球上幾乎任何人都多，而我（翻看筆記）完全沒有 LLM 訓練經驗。所以如果有人對如何理解 Dario 上述引言有不同的建議，我洗耳恭聽！]

3. 常識檢查：nanochat

從（2019 年初訓練）到新的之間隔了七年，後者在「CORE」指標（）上達到了 GPT-2 的水平。

值得注意的是，Karpathy 在說 nanochat 的訓練成本為 73 美元（「在單個 8XH100 節點上運行 3 小時」），而「GPT-2 當時由 OpenAI 在 32 個 TPU v3 晶片上訓練了 168 小時（7 天），當時每個 TPUv3 每小時 8 美元，總成本約為 4.3 萬美元」。

所以這是在 7 年內進步了 600 倍，即減半時間為 9 個月。這與我在 §1 中的故事一致嗎？我認為是的！例如，它可能是這樣的：

6 倍來自更低的硬體成本（ FLOP/$ 每年增長 30%，而 $1.3^7 \approx 6$）；
5 倍來自 §1.1 中的「學習演算法改進」；
2.5 倍來自 §1.3 中的「優化」；
（另請注意，自 2019 年以來 GPU 硬體發生了變化，據推測使其更適合 Transformer，並非所有這些都會反映在峰值 FLOP/$ 中。）
8 倍來自更好的數據 (§1.4)

對於最後一項：GPT-2 使用的是「webtext」，它是通過生成的。相比之下，nanochat 在上訓練，這是一個投入了無與倫比的努力和細心所策劃的教育材料數據集。請記住，我們是在「推理和知識任務」而非困惑度上比較 nanochat 和 GPT-2；如果這些更好的數據沒有發揮主要作用，我會感到非常震驚。

所以無論如何，據我粗略觀察，我在 §1 中的觀點似乎至少與 nanochat 的情況在道理上是一致的。需要說明的是，我沒有詳細檢查或非常嚴格地審查。如果有人想真正檢查，你可以直接下載 nanochat 並開始研究！

4. 可選加分章節：為什麼這很重要？

對於閱讀本文 99% 的人來說，這個話題對你很重要是因為你正試圖預測未來 LLM 的進展。但那不是我的興趣所在，所以我不會談論它。我把它留給其他人！

我實際上對一個相當不同且更古老的爭論感興趣，這個爭論早於 LLM，存在於兩派思想之間。爭論如下：

一派思想（我模糊地將其與 Paul Christiano 聯繫在一起^()）認為：當人們試圖在機器學習中做某事時，在給定的數據和硬體情況下，他們會非常迅速地接近其效率的天花板（但或許不考慮範式轉移，範式轉移不是關於更高效地做同一件事，而是關於嘗試做不同的事情）。

另一派思想認為：不，那是錯的，當人們試圖在機器學習中做某事時，會存在大量可以使其更高效運行的演算法改進，這些改進需要數千人年才能發現，並且它們集體會產生數個數量級的效率差異。

這就是爭論所在。我關心這個爭論的原因與 LLM 無關；相反，它是關於如果有一天我們發生了後 LLM 時代的 AI 範式轉移（我碰巧預期會發生），通往超智能的「起飛」速度會有多快的一場深入討論的一部分。參見，例如在該文章下的。我通常屬於第一派思想，這與我對突然起飛到 ASI 的預期有關。

……好吧，如果這就是爭論所在，那麼我們從這個 LLM 案例研究中得到了什麼教訓？我的回答是：如果我是對的（這是一個很大的「如果」！），那麼（我會論證）LLM 的歷史似乎比支持第二派思想更多地支持第一派。

需要說明的是，我不認為這種類比是非常強有力的證據；另外請注意，還有其他案例研究，如，可能會也可能不會描繪出不同的圖景，我沒有檢查。

事實上，LLM 與我預期的未來 AI 範式之間存在兩個關鍵的不對稱（見），它們使我對突然起飛（以該範式轉移為前提）的論點更加有力：我預期的未來範式 (1) 其能力不依賴於訓練數據（），這使得 §1.4 基本上變得無關緊要；以及 (2) 從隨機初始化到 AGI 需要極少的算力（如果實現得當），這將允許比我們習慣的 LLM 更快速的迭代和測試。

感謝 Hans Gundlach、Seth Herd、plex、algon、ishaan 和 Alex Fogelson 對早期草稿提出的批評意見。

更新日誌

2026 年 2 月 9 日： 我將「長上下文窗口的解鎖者」提取為獨立類別（新章節 §1.2）；我將對 §1.1 影響的猜測從「Transformer + Chinchilla 之外的 3-5 倍」增加到「10 倍」。我大幅重構了關於「優化」的討論（現為 §1.3），以澄清比較的對象。我在「數據」類別（現為 §1.4）中增加了幾個例子。然後我對 Dario 引言和 nanochat 的分析進行了各種相關修改。感謝評論者的想法和反對意見！

2026 年 2 月 11 日： 修正了細微的拼寫錯誤並進行了澄清。

^()Gundlach 鏈接到了，並將其描述為「低效分詞」可能導致高達 68% 性能損失的主張。但我認為 68% 這個數字來自於將最佳實踐與一個極其愚蠢的想法進行比較，即使用純英文文本構建分詞器，然後在多語言語料庫上進行推論。至於 真正的 分詞器改進，我認為自 Transformer 出現之前大家就一直在使用 BPE，如果我沒讀錯論文的話，不同風味的 BPE 看起來非常相似。例如，將最近發布的 nanochat (§3) 的分詞器與 GPT-2 在 2019 年使用的分詞器進行了基準測試，發現根據數據類型不同，壓縮差異僅為 0-15%。這種差異可能來自於使用更好的訓練數據來設置分詞器。
^()僅供參考：他們指出，如果你一次還原其中一項，其產生的負面影響比一次性還原整個方案要大。換句話說，「復古 Transformer」和「現代 Transformer」各自都是一組配合得特別好的組件包。
^()例如，Karpathy 在提到了「muon 優化器……由可學習標量門控的殘差路徑和跳躍連接，以及值嵌入」。一位評論者指出 DeepSeek-v3 的論文包括：「用帶有 top-K 歸一化的 Sigmoid 門控取代 softmax」、「MuonClip 優化器」以及「帶有退火階段的多階段學習率調度」。除非我漏掉了，否則似乎都沒有研究過這些。
^()這當然與完美契合，即我們應該認為 LLM 幾乎完全是通過對其訓練語料庫的模仿學習來獲得其令人印象深刻的能力。
^()一位評論者提到了更多例子：「填空式預訓練（fill-in-the-middle pretraining）」（用於）和基於 LLM 的數據增強 / 改寫（用於）。
^()例如，我們可以直接將 Dario 的「CM」相乘。例如，如果「偶爾」意味著「總共三次」，那麼在我們開始計算「中型」和「小型」CM 之前，僅從「非常大」的 CM 中我們就已經有了 1000 倍！無論如何，我願意就 2 倍或 5 倍之類的因素進行討價還價，但我認為將 Dario 的引言解釋為在 7 年內進步少於（例如）3000 倍是在進行合理化解釋。
^()例如，：「我主張的一個更精確版本：如果你讓 1990 年聰明的研究生接觸到 2017 年所有的非 AI 技術（特別是軟體工具 + 硬體 + 數據）並給予大筆預算，他們不需要很長時間就能在監督學習和強化學習上達到接近最尖端的性能。例如，我認為 20 個優秀的研究生如果受到激勵且管理得當，很有可能在 3 年內做到這一點。」（事實上，Paul 在第一派思想的方向上比我走得更遠，因為我在定義它時為可能難以發現的範式轉移留了餘地，而他甚至不承認這一點。）

The Nature of LLM Algorithmic Progress