newsence
來源篩選

Running a One Trillion-Parameter LLM Locally on AMD Ryzen AI Max+ Cluster

Hacker News

This technical guide demonstrates how to build a four-node distributed inference cluster using AMD Ryzen AI Max+ systems to run the 1-trillion-parameter Kimi K2.5 model locally via llama.cpp RPC.

newsence

在 AMD Ryzen AI Max+ 集群上本地運行兆級參數大語言模型

Hacker News
大約 11 小時前

AI 生成摘要

本技術指南展示如何使用 AMD Ryzen AI Max+ 系統構建四節點分佈式推理集群,並透過 llama.cpp RPC 在本地運行擁有兆級參數的 Kimi K2.5 模型。

背景

這篇文章介紹了如何利用四台搭載 AMD Ryzen AI Max+(Strix Halo)處理器的 Framework Desktop 組成運算集群,並透過 llama.cpp 的 RPC 功能,在本地端執行擁有兆級參數(1 Trillion)的大型語言模型 Kimi K2.5。這項實驗展示了消費級硬體在透過 Linux 核心參數調整與分散式架構下,如何突破單機記憶體限制,承載原本僅能在資料中心運行的超大型推理任務。

社群觀點

針對這項技術展示,Hacker News 社群的反應呈現兩極化。支持者認為這標誌著本地端 AI 推理的重大進步,特別是對於追求隱私與自主權的開發者而言,能以約一萬美元的成本達成兆級參數模型的運作具有指標意義。然而,多數討論集中在其實際可用性與硬體限制上。批評者指出,儘管技術上可行,但效能表現幾乎達到「無法使用」的程度。根據實驗數據,處理 8192 個標記(tokens)的提示詞需要長達一分半鐘的初始反應時間(TTFT),且後續生成速度僅約每秒 8 個標記,與 ChatGPT 等雲端服務相比存在巨大落差。

硬體選擇與網路瓶頸也是爭議焦點。部分留言者對 Framework 設備僅提供 5Gbps 乙太網路感到失望,認為在分散式推理中,節點間的張量傳輸與同步極度依賴頻寬,5Gbps 的規格顯然成為效能瓶頸。有觀點認為,若改用具備 40Gbps 連接能力的硬體,或許能改善延遲問題。此外,針對 Framework 品牌的評價也出現分歧,有使用者批評其走向類似蘋果的封閉路線,如焊接記憶體與缺乏標準 PCIe 插槽,限制了未來升級 100GbE 網卡或高效能儲存設備的可能性。

在穩定性方面,社群成員分享了不同品牌迷你電腦的長期使用經驗。有人提到 Beelink 表現穩定,但 Minisforum 的設備常因散熱設計接近極限而出現自動關機或啟動循環的問題,建議在進行此類高負載運算時應額外加強外部散熱。儘管存在效能與硬體設計的爭論,社群普遍認同這類實驗推動了開源模型在邊緣運算的邊界,讓開發者能以相對低廉的代價進行長文本推理與複雜代碼生成的測試。

延伸閱讀

  • Lemonade SDK:提供預編譯的 llama.cpp 二進位檔,針對 AMD ROCm 7 與 Strix Halo 架構進行優化。
  • Framework Desktop Mainboard:文中使用的核心硬體組件,支援高容量記憶體配置。
  • Minisforum MS-S1 Max:留言中提到具備更佳網路擴充性的替代硬體方案。