newsence
來源篩選

Qwen3.5: Towards Native Multimodal Agents

Hacker News

This article introduces Qwen3.5, a new development in AI that aims to create native multimodal agents. It signifies a step forward in AI's ability to process and interact with various forms of data simultaneously.

newsence

Qwen3.5:邁向原生多模態代理

Hacker News
12 天前

AI 生成摘要

這篇文章介紹了Qwen3.5,一項旨在創造原生多模態代理的AI新發展。這標誌著AI在同時處理和互動各種數據形式的能力上向前邁進了一步。

背景

阿里巴巴旗下的 Qwen 團隊近日發布了 Qwen3.5 系列模型,主打原生多模態能力與強大的代理人(Agent)表現。其中旗艦模型 Qwen3.5-397B-A17B 採用混合專家架構(MoE),擁有高達 3970 億個參數,但在推理時僅需啟動 170 億個參數,旨在挑戰當前最頂尖的開源與閉源模型。

社群觀點

Hacker News 社群對於 Qwen3.5 的討論高度集中在硬體門檻與量化技術的實用性上。由於該模型體積龐大,許多開發者關注如何在消費級硬體上運行。社群成員 danielhanchen 分享了針對 Unsloth 優化的 GGUF 版本,引發了關於量化損失的深度辯論。多數意見認為 4-bit(如 MXFP4)是性能與品質的最佳平衡點,而 2-bit 或 3-bit 雖然能顯著降低顯存需求,但在邏輯推理上往往會出現明顯的退化。有趣的是,有使用者指出 MoE 架構的特性使得模型在記憶體管理上更具彈性,甚至可以利用磁碟映射(mmap)技術將不活躍的專家層留在硬碟中,雖然這會導致推理速度大幅下降至每秒不到一個 token,但對於預算有限的研究者來說,這提供了一種「能跑起來」的可能性。

針對模型能力的真實性,社群內出現了兩極化的評價。部分用戶質疑 Qwen 系列存在「刷榜」(benchmaxxing)嫌疑,認為其在 ARC-AGI 等難以透過預訓練覆蓋的推理測試中表現平平,但在常見基準測試中卻異常強大,懷疑其訓練資料中包含了大量針對測試集的優化,或是過度依賴其他頂尖模型(如 GPT-4 或 Claude)的合成數據。然而,也有另一派觀點認為,即便存在數據蒸餾,Qwen 在實際應用中的進步仍有目共睹。特別是在長文本處理與工具調用(Tool Use)方面,Qwen3.5 展現了極高的成熟度。知名開發者 Simon Willison 則透過其經典的「鵜鶘騎腳踏車」SVG 生成測試,指出 Qwen3.5 雖然在視覺理解上有進步,但在精細的空間邏輯繪圖上仍與頂尖閉源模型有差距。

此外,關於訓練方法的討論也十分熱烈。Qwen 團隊提到使用了超過 1.5 萬個強化學習(RL)環境,社群成員對此感到驚艷,並推測這可能包含自動化的程式碼庫、API 接口甚至是圖形介面環境。這種透過大規模可驗證環境進行強化學習的趨勢,被認為是開源模型能快速追趕閉源模型的關鍵。儘管如此,對於 Mac 使用者而言,雖然統一記憶體架構能塞下大型模型,但預填充(prefill)速度過慢仍是實際使用時的硬傷,這也反映出目前大型模型在本地端部署時,硬體算力與記憶體頻寬之間的持續拉鋸。

延伸閱讀