能執行兩組 10 位數加法的最小 Transformer 模型

Hacker News

2 天前

AI 生成摘要

AdderBoard 挑戰賽徵求社群建立體積最小且能以至少 99% 準確率執行兩組 10 位數加法的自迴歸 Transformer 模型。這項研究旨在探索 Transformer 處理對齊、算術與進位傳播等基礎任務時，所需的最小架構需求。

github.com

AdderBoard

背景

AdderBoard 是一個由 Dimitris Papailiopoulos 發起的挑戰計畫，旨在探索能準確執行 10 位數加法的最小 Transformer 模型。這項挑戰源於對 Claude Code 與 Codex 兩款 AI 工具在相同任務下的表現對比，隨後演變成一場社群競賽，目前已將參數量從最初的數千個大幅縮減至數百個甚至更低。該計畫嚴格要求模型必須具備自注意力機制與自回歸特性，確保加法邏輯是從模型權重中湧現，而非透過外部程式碼邏輯實現。

社群觀點

針對這項挑戰，社群成員展開了關於模型本質與實作邊界的討論。有評論者質疑主辦方對於「推理程式碼」與「模型邏輯」的劃分方式，認為既然規則強調推理程式碼必須通用且不可包含特定任務邏輯，那麼主辦方或許應該直接提供一套標準化的推理程式碼框架，讓參賽者能完全專注於模型架構與權重的優化，避免在規則邊界上產生爭議。

在技術實作層面，社群對於「最小化」的極限展現了高度興趣。有觀點指出，若單純追求運算結果，理論上透過單次矩陣乘法即可達成，但在 Transformer 的框架下，如何平衡參數數量與自回歸生成的準確性才是真正的難題。目前排行榜顯示「手寫權重」的表現遠優於「數據訓練」的結果，這引發了社群成員的好奇：如果採用手寫權重所設計的精簡架構，但改用隨機初始化權重進行訓練，是否能達到同樣驚人的參數效率？這反映出社群對於「人工設計架構」與「機器學習優化」之間差距的關注。

此外，關於參數數量的極限，社群中也出現了極具挑戰性的案例。有討論提到在社交媒體上有人聲稱僅用 28 個參數就達成了目標，雖然這類極端案例是否完全符合 AdderBoard 的嚴格定義仍有待驗證，但它確實激發了關於 Transformer 結構簡化可能性的討論。部分成員則將此議題延伸至硬體層面，思考是否能透過特定演算法，將這些極小化的 Transformer 模型轉化為低功耗、高速的邏輯閘陣列，從而實現更高效的運算硬體。

Smallest transformer that can add two 10-digit numbers

背景

社群觀點

延伸閱讀