newsence
來源篩選

How to run Qwen 3.5 locally

Hacker News

This documentation provides a comprehensive guide on running Alibaba's new Qwen3.5 model family locally using Unsloth's optimized GGUF quants and llama.cpp. It covers hardware requirements, thinking mode configurations, and specific inference tutorials for models ranging from 0.8B to 397B parameters.

newsence

如何在本地運行 Qwen 3.5:完整指南

Hacker News
1 天前

AI 生成摘要

本文件提供了使用 Unsloth 優化的 GGUF 量化版本與 llama.cpp 在本地運行阿里巴巴全新 Qwen3.5 模型系列的全面指南。內容涵蓋了硬體需求、思考模式配置,以及針對 0.8B 到 397B 不同參數規模模型的具體推理教學。

背景

阿里巴巴近期發布了 Qwen 3.5 模型家族,涵蓋從 0.8B 到 397B 等多種參數規模,並特別強調其在長文本處理、多語言支持以及混合推理(Thinking Mode)方面的卓越表現。Unsloth 團隊隨即發布了針對該系列的優化指南,詳細說明了如何透過動態量化技術在消費級硬體上運行這些模型,並提供了不同硬體配置下的記憶體需求建議與推論參數設置。

社群觀點

在 Hacker News 的討論中,社群對於 Qwen 3.5 在中小型硬體上的實戰表現感到驚艷。許多使用者分享了在低階或舊款 GPU 上運行的成功經驗,例如有網友提到在僅有 8GB 顯存的 RTX 3050 上運行 35B-A3B 模型,其反應速度與處理編碼任務的能力非常實用。這種「小顯存跑大模型」的現象主要歸功於模型架構的優化與有效的量化技術,甚至有使用者認為 35B 模型的表現優於完全放入顯存的 4B 模型,即便部分運算需依賴系統記憶體,其推論品質的提升仍具備極高價值。

針對編碼與自動化任務,社群給予了高度評價。有開發者分享在 M4 Max 設備上使用 35B 版本處理 HTML 與 CSS 任務,其產出品質足以讓人在處理其他專案時,放心地將瑣碎的待辦事項交給模型完成。此外,9B 版本也被證實具備優異的 OCR 處理與文本格式化能力,甚至在 16GB 顯存的環境下,推論速度可達每秒 100 個 token,超越了許多線上 API 服務的體驗。這讓不少人感嘆,這是首次在消費級硬體上感受到本地模型具備真正的實用性。

然而,討論中也出現了一些技術挑戰與效能疑慮。部分使用者反映 Qwen 3.5 的推論速度似乎比前一代 Qwen 3 慢了約一半,且在特定的硬體環境(如舊款 1650 Ti)下,使用 llama.cpp 進行 GPU 加速時容易遇到記憶體分配錯誤的問題。此外,關於模型是否會陷入工具調用的無限循環,Unsloth 雖然聲稱已透過更新修復,但仍有早期使用者遇到類似狀況。對於量化版本的選擇,社群共識傾向於在 16GB 顯存環境下優先選擇 4-bit 量化的 27B 或 35B 模型,認為其邏輯推理能力已可與主流的商用模型相提並論。

延伸閱讀

在討論串中,使用者提到了幾個值得關注的工具與模型變體。除了 Unsloth 提供的動態量化 GGUF 檔案外,還有網友推薦使用 ik_llama.cpp 來獲得更好的推論速度。在模型選擇上,qwen3-coder-next 35B 被點名在編碼任務上有出色表現。此外,對於希望在 Windows 環境下更簡單運行模型的用戶,LM Studio 也是被多次提及的推薦工具。需要注意的是,目前 Qwen 3.5 的 GGUF 版本因為視覺組件(mmproj)的相容性問題,暫時無法直接在 Ollama 上運行,建議優先使用 llama.cpp 相容的後端。