Qwen3.5：邁向原生多模態代理

Hacker News

12 天前

AI 生成摘要

這篇文章介紹了Qwen3.5，一項旨在創造原生多模態代理的AI新發展。這標誌著AI在同時處理和互動各種數據形式的能力上向前邁進了一步。

qwen.ai

blog

背景

阿里巴巴旗下的 Qwen 團隊近日發布了 Qwen3.5 系列模型，主打原生多模態能力與強大的代理人（Agent）表現。其中旗艦模型 Qwen3.5-397B-A17B 採用混合專家架構（MoE），擁有高達 3970 億個參數，但在推理時僅需啟動 170 億個參數，旨在挑戰當前最頂尖的開源與閉源模型。

社群觀點

Hacker News 社群對於 Qwen3.5 的討論高度集中在硬體門檻與量化技術的實用性上。由於該模型體積龐大，許多開發者關注如何在消費級硬體上運行。社群成員 danielhanchen 分享了針對 Unsloth 優化的 GGUF 版本，引發了關於量化損失的深度辯論。多數意見認為 4-bit（如 MXFP4）是性能與品質的最佳平衡點，而 2-bit 或 3-bit 雖然能顯著降低顯存需求，但在邏輯推理上往往會出現明顯的退化。有趣的是，有使用者指出 MoE 架構的特性使得模型在記憶體管理上更具彈性，甚至可以利用磁碟映射（mmap）技術將不活躍的專家層留在硬碟中，雖然這會導致推理速度大幅下降至每秒不到一個 token，但對於預算有限的研究者來說，這提供了一種「能跑起來」的可能性。

針對模型能力的真實性，社群內出現了兩極化的評價。部分用戶質疑 Qwen 系列存在「刷榜」（benchmaxxing）嫌疑，認為其在 ARC-AGI 等難以透過預訓練覆蓋的推理測試中表現平平，但在常見基準測試中卻異常強大，懷疑其訓練資料中包含了大量針對測試集的優化，或是過度依賴其他頂尖模型（如 GPT-4 或 Claude）的合成數據。然而，也有另一派觀點認為，即便存在數據蒸餾，Qwen 在實際應用中的進步仍有目共睹。特別是在長文本處理與工具調用（Tool Use）方面，Qwen3.5 展現了極高的成熟度。知名開發者 Simon Willison 則透過其經典的「鵜鶘騎腳踏車」SVG 生成測試，指出 Qwen3.5 雖然在視覺理解上有進步，但在精細的空間邏輯繪圖上仍與頂尖閉源模型有差距。

此外，關於訓練方法的討論也十分熱烈。Qwen 團隊提到使用了超過 1.5 萬個強化學習（RL）環境，社群成員對此感到驚艷，並推測這可能包含自動化的程式碼庫、API 接口甚至是圖形介面環境。這種透過大規模可驗證環境進行強化學習的趨勢，被認為是開源模型能快速追趕閉源模型的關鍵。儘管如此，對於 Mac 使用者而言，雖然統一記憶體架構能塞下大型模型，但預填充（prefill）速度過慢仍是實際使用時的硬傷，這也反映出目前大型模型在本地端部署時，硬體算力與記憶體頻寬之間的持續拉鋸。

Qwen3.5: Towards Native Multimodal Agents

背景

社群觀點

延伸閱讀