在 Jetson 上部署開源視覺語言模型 (VLM)
在 Jetson 上部署開源視覺語言模型 (VLM)
推理準確性與效率的快速演進,使得這些模型成為邊緣裝置的理想選擇。NVIDIA Jetson 系列,從高效能的 AGX Thor 和 AGX Orin 到精巧的 Orin Nano Super,皆專為驅動物理 AI 與機器人技術的加速應用而打造,為領先的開源模型提供所需的優化運行環境。
在本教學中,我們將示範如何使用 vLLM 框架在 Jetson 全系列產品上部署 NVIDIA Cosmos Reasoning 2B 模型。我們還將引導您將此模型連接到 Live VLM WebUI,實現基於網路攝影機的即時交互式物理 AI 介面。
先決條件
支援的裝置:
JetPack 版本:
儲存空間:需要 NVMe SSD
帳號:
概覽
兩類裝置的工作流程相同:
步驟 1:安裝 NGC CLI
NGC CLI 讓您可以從 NVIDIA NGC 目錄下載模型權重(checkpoints)。
下載與安裝
設定 CLI
系統會提示您輸入:
步驟 2:下載模型
下載 FP8 量化權重。這適用於所有 Jetson 裝置:
這將建立一個名為 cosmos-reason2-2b_v1208-fp8-static-kv8/ 的目錄,其中包含模型權重。請記住完整路徑 — 您需要將其作為磁碟卷(volume)掛載到 Docker 容器中。
步驟 3:拉取 vLLM Docker 鏡像
針對 Jetson AGX Thor
針對 Jetson AGX Orin / Orin Super Nano
步驟 4:使用 vLLM 運行 Cosmos Reasoning 2B 服務
選項 A:Jetson AGX Thor
Thor 擁有充足的 GPU 記憶體,可以以寬裕的上下文長度運行模型。
設定下載模型的路徑並釋放主機上的快取記憶體:
啟動掛載了模型的容器:
在容器內,激活環境並啟動模型服務:
注意:--reasoning-parser qwen3 標記啟用了思維鏈(chain-of-thought)推理提取。--media-io-kwargs 標記用於配置視訊幀處理。
等待直到看到:
選項 B:Jetson AGX Orin
AGX Orin 有足夠的記憶體,可以使用與 Thor 相同的寬裕參數運行模型。
設定下載模型的路徑並釋放主機上的快取記憶體:
-
啟動容器:
-
在容器內,激活環境並啟動服務:
等待直到看到:
選項 C:Jetson Orin Super Nano(記憶體受限)
Orin Super Nano 的 RAM 顯著較少,因此我們需要激進的記憶體優化標記。
設定下載模型的路徑並釋放主機上的快取記憶體:
-
啟動容器:
-
在容器內,激活環境並啟動服務:
關鍵標記說明(僅限 Orin Super Nano):
等待直到看到伺服器就緒:
驗證伺服器是否正在運行
在 Jetson 的另一個終端機執行:
您應該會在回應中看到列出的模型。
步驟 5:使用快速 API 調用進行測試
在連接 WebUI 之前,驗證模型是否正確回應:
提示:API 請求中使用的模型名稱必須與 vLLM 報告的名稱匹配。可透過 curl http://localhost:8000/v1/models 進行驗證。
步驟 6:連接到 Live VLM WebUI
Live VLM WebUI 提供了一個即時的網路攝影機到 VLM 的介面。透過 vLLM 提供的 Cosmos Reasoning 2B 服務,您可以串流網路攝影機畫面並獲得帶有推理過程的即時 AI 分析。
安裝 Live VLM WebUI
最簡單的方法是使用 pip(開啟另一個終端機):
或使用 Docker:
設定 WebUI
WebUI 現在會將您的網路攝影機幀串流至 Cosmos Reasoning 2B,並即時顯示模型的分析結果。
針對 Orin 的推薦 WebUI 設定
由於 Orin 以較短的上下文長度運行,請在 WebUI 中調整以下設定:
疑難排解
Orin 上的記憶體不足 (OOM)
問題:vLLM 因 CUDA 記憶體不足錯誤而崩潰。
解決方案:
啟動前釋放系統記憶體:
降低 --gpu-memory-utilization(嘗試 0.55 或 0.50)
進一步減少 --max-model-len(嘗試 128)
確保沒有其他佔用 GPU 的進程正在運行
WebUI 中找不到模型
問題:模型未出現在 Live VLM WebUI 的下拉選單中。
解決方案:
Orin 上的推理速度慢
問題:每次回應都需要很長時間。
解決方案:
vLLM 無法載入模型
問題:vLLM 報告模型路徑不存在或無法載入。
解決方案:
總結
在本教學中,我們展示了如何使用 vLLM 在 Jetson 系列裝置上部署 NVIDIA Cosmos Reasoning 2B 模型。
Cosmos Reasoning 2B 的思維鏈能力與 Live VLM WebUI 的即時串流相結合,使其成為在邊緣端原型設計和評估視覺 AI 應用的理想選擇。
額外資源
社群
· 註冊或登入以發表評論