How Taalas "prints" LLM onto a chip?
Hacker News
Taalas has developed a fixed-function ASIC that hardwires LLM weights directly onto the silicon, achieving 17,000 tokens per second with significantly lower costs and power consumption than GPUs.
Hacker News
Taalas has developed a fixed-function ASIC that hardwires LLM weights directly onto the silicon, achieving 17,000 tokens per second with significantly lower costs and power consumption than GPUs.
AI 生成摘要
Taalas 開發了一款固定功能的 ASIC 晶片,直接將大型語言模型的權重硬連線在晶片上,能以遠低於 GPU 的成本與功耗,達到每秒 17,000 個標記的推論速度。
新創公司 Taalas 最近推出了一款針對 Llama 3.1 8B 模型量身打造的 ASIC 晶片,宣稱能達到每秒 17,000 個 token 的驚人推論速度。這項技術的核心在於將模型權重直接「硬接線」於矽片上,徹底捨棄了傳統 GPU 頻繁存取外部記憶體的瓶頸,從而實現極高的能效比與運算速度。
在 Hacker News 的討論中,社群對於 Taalas 如何在硬體層面實現「單電晶體乘法」展現了高度好奇。最初有評論者猜測這可能涉及對數領域的運算或電阻網路等類比運算技術,認為這種方式雖然容易產生雜訊,但在神經網路推論中,雜訊往往會被抵消而不影響結果。然而,隨後的討論引用了技術媒體的報導指出,儘管該公司對細節保密,但已確認其運算過程仍是純數位化的。這種將記憶體與運算單元完全融合的設計,被認為是打破馮紐曼瓶頸的激進嘗試。
針對這種「一晶片一模型」的固定功能設計,社群展開了關於未來硬體型態的想像。有網友將其比喻為早期的遊戲卡匣或 CD-ROM,並提議未來的電腦或機器人或許可以配備類似 Nintendo DS 的插槽,讓使用者根據需求物理性地更換不同的模型晶片。這種「硬體版混合專家模型」(Hardware MoE)的構想,被認為能有效推動開源權重模型的普及,並在提升效能的同時保障隱私。
不過,技術可行性與經濟效益仍是爭議焦點。部分評論者質疑,神經網路層與層之間高度連接的特性,在物理佈線(Physical Layer)上會面臨極大的挑戰。此外,雖然 Taalas 透過預留通用邏輯閘陣列並僅客製化頂層光罩的方式來縮短開發週期,但在 AI 領域技術更迭以週為單位的現狀下,長達兩個月的晶片生產週期是否能跟上模型演進的速度仍存有疑問。支持者則認為,隨著模型架構趨於穩定,這種結構化 ASIC(Structured ASIC)模式有望在嵌入式設備與邊緣運算領域大放異彩,成為類似 H.264 或 AV1 解碼器般的標準硬體單元。