newsence
來源篩選

Smallest transformer that can add two 10-digit numbers

Hacker News

The AdderBoard project challenges the community to build the smallest possible autoregressive transformer capable of adding two 10-digit numbers with at least 99% accuracy. This research explores the minimal architectural requirements for transformers to handle fundamental tasks like alignment, arithmetic, and carry propagation.

newsence

能執行兩組 10 位數加法的最小 Transformer 模型

Hacker News
2 天前

AI 生成摘要

AdderBoard 挑戰賽徵求社群建立體積最小且能以至少 99% 準確率執行兩組 10 位數加法的自迴歸 Transformer 模型。這項研究旨在探索 Transformer 處理對齊、算術與進位傳播等基礎任務時,所需的最小架構需求。

背景

AdderBoard 是一個由 Dimitris Papailiopoulos 發起的挑戰計畫,旨在探索能準確執行 10 位數加法的最小 Transformer 模型。這項挑戰源於對 Claude Code 與 Codex 兩款 AI 工具在相同任務下的表現對比,隨後演變成一場社群競賽,目前已將參數量從最初的數千個大幅縮減至數百個甚至更低。該計畫嚴格要求模型必須具備自注意力機制與自回歸特性,確保加法邏輯是從模型權重中湧現,而非透過外部程式碼邏輯實現。

社群觀點

針對這項挑戰,社群成員展開了關於模型本質與實作邊界的討論。有評論者質疑主辦方對於「推理程式碼」與「模型邏輯」的劃分方式,認為既然規則強調推理程式碼必須通用且不可包含特定任務邏輯,那麼主辦方或許應該直接提供一套標準化的推理程式碼框架,讓參賽者能完全專注於模型架構與權重的優化,避免在規則邊界上產生爭議。

在技術實作層面,社群對於「最小化」的極限展現了高度興趣。有觀點指出,若單純追求運算結果,理論上透過單次矩陣乘法即可達成,但在 Transformer 的框架下,如何平衡參數數量與自回歸生成的準確性才是真正的難題。目前排行榜顯示「手寫權重」的表現遠優於「數據訓練」的結果,這引發了社群成員的好奇:如果採用手寫權重所設計的精簡架構,但改用隨機初始化權重進行訓練,是否能達到同樣驚人的參數效率?這反映出社群對於「人工設計架構」與「機器學習優化」之間差距的關注。

此外,關於參數數量的極限,社群中也出現了極具挑戰性的案例。有討論提到在社交媒體上有人聲稱僅用 28 個參數就達成了目標,雖然這類極端案例是否完全符合 AdderBoard 的嚴格定義仍有待驗證,但它確實激發了關於 Transformer 結構簡化可能性的討論。部分成員則將此議題延伸至硬體層面,思考是否能透過特定演算法,將這些極小化的 Transformer 模型轉化為低功耗、高速的邏輯閘陣列,從而實現更高效的運算硬體。

延伸閱讀

  • SeuperHakkerJa 提供的 28 參數實作草案:https://gist.github.com/SeuperHakkerJa/da3050739bea97aabd86e745866f8493