Show HN: Llama 3.1 70B on a single RTX 3090 via NVMe-to-GPU bypassing the CPU Hacker News
2026-02-21T20:57:30.000Z NTransformer is a high-efficiency C++/CUDA inference engine that enables running Llama 70B on a single consumer GPU by streaming layers directly from NVMe to VRAM, achieving a 33x speedup over standard memory mapping.
Hacker News 熱議:透過 NVMe 直連 GPU 繞過 CPU,在單張 RTX 3090 上執行 Llama 3.1 70B
AI 生成摘要
NTransformer 是一款高效能的 C++/CUDA 推論引擎,透過 NVMe 直接將模型層串流至 GPU 記憶體並繞過 CPU,讓單張 RTX 3090 也能執行 Llama 70B,且速度比標準 mmap 基準快上 33 倍。
背景
開發者 xaskasdf 在 GitHub 上發布了名為 NTransformer 的開源專案,展示如何利用 NVMe 直接存取技術(Direct I/O),繞過 CPU 與系統記憶體,直接將 Llama 3.1 70B 模型從硬碟串流至單張 RTX 3090 顯示卡進行推論。這項實驗源於作者在復古遊戲研究中的靈感,旨在探索消費級硬體在極端記憶體限制下運行超大型語言模型的可能性。
社群觀點
針對這項技術,Hacker News 社群展開了關於推論效率與實用價值的深度討論。多數評論者首先關注的是效能表現,該專案在 RTX 3090 上運行 70B 模型僅能達到約每秒 0.2 個標記(tok/s),這引發了兩極化的評價。部分網友認為,這種速度在實際互動中幾乎不具備可用性,對於大多數應用場景而言,選擇一個能完全載入顯存(VRAM)且經過良好量化的 8B 或 13B 模型,在延遲與品質之間能取得更好的平衡。甚至有使用者指出,若使用傳統的 CPU 推論配合足夠的系統記憶體(DRAM),其速度可能還會優於這種 NVMe 直接串流的方案,因為 DDR4 或 DDR5 的頻寬仍遠高於現有的 PCIe 匯流排速度。
然而,另一派觀點則從硬體架構的角度肯定了這項嘗試的創新性。支持者認為,在追求模型品質而非速度的特定場景下,這種技術極具潛力。討論中提到,LLM 的推論速度本質上受限於「記憶體頻寬除以模型大小」,雖然目前 NVMe 方案受限於 PCIe Gen3 或 Gen4 的頻寬瓶頸,但這為未來超大型模型的運行提供了一種低成本的替代路徑。有網友進一步發想,這種三層式自適應快取架構(顯存、系統記憶體、NVMe)非常適合應用於混合專家模型(MoE)。例如,可以將核心專家層保留在顯存中,而將較少使用的專家層放置在 NVMe,並透過預測路由機制提前將所需的權重交換至顯存,從而實現以極小顯存運行兆級參數模型的可能性。
此外,社群也針對技術細節進行了辯論。有人質疑 3090 在此架構下是否真的達到運算瓶頸,並討論了 DirectX 的直接儲存 API(DirectStorage)是否能達成類似效果。部分資深開發者指出,這類 GPU-NVMe 直接存取技術(如 NVIDIA GPUDirect)在專業領域已存在,但能將其移植到消費級硬體並應用於 Transformer 模型推論,確實是一個有趣的技術里程碑。儘管目前的 0.2 tok/s 速度緩慢,但隨著 PCIe Gen5 的普及與軟體層的優化,這種繞過 CPU 的資料路徑可能會成為未來邊緣運算的重要組成部分。
延伸閱讀
在討論串中,網友提到了幾個相關的技術專案與概念,包含專門研究 SSD 與 GPU 之間直接記憶體存取的 ssd-gpu-dma 以及 BAM 專案。另外,也有人提到利用 NVIDIA Dynamo 與 NIXL 原語來實現 JIT 預測交換專家層的構想,這與 SGLang 的路由層優化方向不謀而合。