NanoGPT Slowrun：有限數據與無限算力下的語言建模

Hacker News

大約 7 小時前

AI 生成摘要

NanoGPT Slowrun 是 Q Labs 發起的一項開源計畫，旨在實現高數據效率的 AI 訓練算法，目前已透過優先考慮算法改進而非訓練速度，成功達到 5.5 倍的數據效率。

qlabs.sh

slowrun

背景

NanoGPT Slowrun 是由 Q Labs 發起的一項開源挑戰，旨在探索「數據受限、算力無限」情境下的語言模型訓練。與過往追求訓練速度的競賽不同，Slowrun 限制僅能使用 100M 的 FineWeb 數據，但允許投入不計代價的運算資源，目標是找出能極大化數據效率的學習演算法，以應對未來高品質數據枯竭、算力持續增長的技術瓶頸。

社群觀點

在 Hacker News 的討論中，社群成員對這種「反向限制」的實驗設計展現了濃厚興趣。許多評論者指出，當前的機器學習基準測試大多假設數據無限而算力有限，這導致開發者過度追求訓練速度，進而過濾掉許多雖然昂貴但具備潛力的想法。lzaborowski 認為，將約束條件翻轉過來非常有意義，因為如果高品質數據成為真實的瓶頸，那麼研究如何在算力廉價的前提下，從同一份數據中榨取更多信號，將成為未來最重要的課題。

部分參與討論的成員將此計畫與 BabyLM 挑戰賽進行類比。對此，計畫發起人 Samip 解釋了兩者的本質差異：BabyLM 較關注人類語言習得的過程，而 Slowrun 則是純粹的工程與演算法挑戰，強調利用大量運算來換取數據效率。此外，Slowrun 採用開源倉庫持續更新的模式，與傳統學術會議的競賽形式相比，更具備即時協作與快速迭代的氛圍。

然而，社群也對這種極致優化提出了質疑，特別是關於「過度擬合」的風險。archermarks 指出，當開發者不斷針對特定的驗證集進行元優化（meta-optimization）以改進模型架構時，模型可能會傾向於記憶該數據集的特性而非真正的泛化。針對這一點，發起人坦言雖然目前元優化提取的信息量尚小，過擬合風險較低，但未來計畫透過更換驗證集，甚至引入完全不同分佈（OOD）的數據集來確保演算法的泛化能力。目前該計畫已透過 Muon 優化器、多輪訓練（multi-epoch）以及更激進的正則化手段，將數據效率提升至基準值的 5.5 倍，社群普遍看好這類探索能為機器人學或生物學等數據稀缺領域提供新的解決思路。

延伸閱讀

在討論中被提及的相關資源包括 BabyLM 挑戰賽，這是一個旨在研究如何在受限於人類規模數據（約一億個詞）的情況下，訓練出具備強大語言理解能力模型的學術競賽。此外，計畫中提到的 Muon 優化器與 SOAP 等二階優化演算法，也是目前提升數據效率的關鍵技術方向。

NanoGPT Slowrun: Language Modeling with Limited Data, Infinite Compute

背景

社群觀點

延伸閱讀