A Dream of Spring for Open-Weight LLMs: 10 Architectures from Jan-Feb 2026
Sebastian Raschka'S Blog
A Round Up And Comparison of 10 Open-Weight LLM Releases in Spring 2026
Sebastian Raschka'S Blog
A Round Up And Comparison of 10 Open-Weight LLM Releases in Spring 2026
AI 生成摘要
這篇文章將帶領你按時間順序回顧十個主要的開源權重模型發佈,重點分析它們在架構上的相似之處與差異,幫助你跟上這波模型發佈的技術趨勢。
如果你本月在跟進開放權重模型的發佈上感到有些吃力,這篇文章將帶你了解主要的發展趨勢。
在本文中,我將按時間順序引導你了解十個主要的發佈,並重點關注架構的相似之處與差異:
(註:DeepSeek V4 發佈後將會補上。)
由於涉及內容廣泛,我將在本文中引用我之前的《大型 LLM 架構比較》文章,以獲取某些技術主題(如混合專家模型 MoE、QK-Norm、多頭潛在注意力 MLA 等)的背景資訊,以避免內容冗餘。
1 月 27 日,Arcee AI(一家我此前未曾關注的公司)開始在模型中心發佈其開放權重 400B Trinity Large LLM 的各個版本,以及兩個較小的變體:
除了模型權重外,Arcee AI 還在 GitHub 上發佈了一份詳盡的技術報告(截至 2 月 18 日也已上傳至 arxiv)。
讓我們近距離觀察這款 400B 旗艦模型。下圖 2 將其與 z.AI 的 GLM-4.5 進行了比較,後者因其 355B 的參數規模,可能是與之最相似的模型。
正如我們在 Trinity 和 GLM-4.5 的比較中看到的,Trinity 模型加入了一些有趣的架構組件。
首先,它採用了交替的局部:全域(滑動窗口)注意力層(SWA),類似於 Gemma 3、Olmo 3、小米 MiMo 等。簡而言之,SWA 是一種稀疏(局部)注意力模式,每個 token 僅關注固定大小的 $t$ 個近期 token 窗口(例如 4096),而不是關注整個輸入(輸入可能高達 $n=256,000$ 個 token)。這將每層的常規注意力成本從 $O(n^2)$ 降低到約 $O(n \cdot t)$,這也是它對長文本模型具有吸引力的原因。
但 Arcee 團隊沒有使用 Gemma 3 和小米常用的 5:1 局部:全域比例,而是選擇了類似於 Olmo 3 的 3:1 比例,以及相對較大的 4096 滑動窗口大小(也與 Olmo 3 相似)。
該架構還使用了 QK-Norm,這是一種對 key 和 query 應用 RMSNorm 以穩定訓練的技術(如下圖 4 所示),並且在全域注意力層中不使用位置嵌入(NoPE),類似於 SmolLM3。
Trinity 還具有一種門控注意力(Gated Attention)形式。它不是完整的 Gated DeltaNet,但使用了與 Qwen3-Next 注意力機制中類似的門控。
也就是說,Trinity 團隊修改了標準注意力,在輸出線性投影前的縮放點積(scaled dot-product)中加入了逐元素門控(如下圖所示),這減少了注意力匯聚(attention sinks)並提高了長序列的泛化能力。此外,它還有助於訓練穩定性。
此外,Trinity 技術報告顯示,Trinity Large 和 GLM-4.5 基礎模型的建模性能幾乎相同(我推測他們沒有與更近期的基礎模型比較,是因為現在許多公司只分享微調後的模型)。
你可能已經注意到在之前的 Trinity Large 架構圖中使用了四個(而非兩個)RMSNorm 層,這乍看之下與 Gemma 3 相似。
總體而言,RMSNorm 的放置位置看起來像 Gemma 3 的風格,但這裡的轉折在於(每個區塊中)第二個 RMSNorm 的增益是經過深度縮放的,這意味著它被初始化為約 $1 / \sqrt{L}$($L$ 為總層數)。因此,在訓練初期,殘差更新從較小的值開始,並隨著模型學習到正確的比例而增長。
其 MoE 是類似 DeepSeek 的 MoE,擁有大量的小專家,但將其粗粒度化以幫助提高推理吞吐量(我們在 Mistral 3 Large 採用 DeepSeek V3 架構時也看到了這一點)。
最後,關於訓練改進還有一些有趣的細節(一種新的 MoE 負載均衡策略和另一種使用 MuOpt 優化器的方法),但由於這主要是一篇架構文章(且還有許多開放權重 LLM 需要介紹),這些細節超出了討論範圍。
雖然 Arcee Trinity 基本上達到了較舊的 GLM-4.5 模型的建模性能,但 Kimi K2.5 是一款在 1 月 27 日發佈時創下開放權重性能新上限的模型。
令人印象深刻的是,根據其詳細技術報告中的基準測試,它在發佈時與領先的專有模型並駕齊驅。
與前述的 Arcee Trinity 或 GLM-4.5 相比,優秀的建模性能並不令人意外,因為(與其前身 K2 類似)Kimi K2.5 是一個擁有 1 萬億參數的模型,因此比 Trinity 大 2.5 倍,比 GLM-4.5 大 2.8 倍。
總體而言,Kimi K2.5 的架構與 Kimi K2 相似,而 K2 又是 DeepSeek V3 架構的放大版本。
然而,K2 是純文本模型,而 Kimi K2.5 現在是支持視覺的多模態模型。引用技術報告:
Kimi K2.5 是基於 Kimi K2 構建的原生多模態模型,通過在大約 15 萬億個視覺和文本混合 token 上進行大規模聯合預訓練而成。
在訓練過程中,他們採用了「早期融合」(early fusion)方法,並在早期將視覺 token 與文本 token 一起傳入,正如我在之前的《理解多模態 LLM》文章中所討論的那樣。
邊註:在多模態論文中,「早期融合」一詞不幸地被過度使用。它可以指:
在這種情況下,雖然報告中的「早期融合」具體指第 1 點(預訓練期間提供視覺 token 的時機),但第 2 點在這裡也同樣適用。
此外,關於第 1 點,研究人員包含了一項有趣的消融研究,顯示模型從預訓練早期看到視覺 token 中獲益,如下方標註的表格所示。
我必須承認,我之前還沒有關注過 Step 模型。這款模型因其有趣的規模、詳細的技術報告以及快速的 token/sec 性能引起了我的注意。
Step 3.5 Flash 是一個 196B 參數的模型,比最近的 DeepSeek V3.2 模型 (671B) 小 3 倍以上,但在建模性能基準測試中略微領先。根據 Step 團隊的數據,Step 3.5 Flash 在 128k 上下文長度下具有 100 tokens/sec 的吞吐量,而根據 Step 模型中心頁面的數據,DeepSeek V3.2 在 Hopper GPU 上僅有 33 tokens/sec 的吞吐量。
性能較高的原因之一是模型的規模較小(196B 參數的 MoE,每個 token 激活 11B 參數,而 DeepSeek V3.2 是 671B 參數的 MoE,激活 37B 參數),如下圖所示。
另一個原因(連同我們之前在 Trinity 背景下討論過的門控注意力)是多 token 預測(Multi-Token Prediction, MTP)。DeepSeek 是 MTP 的早期採用者,這是一種訓練 LLM 在每一步預測多個未來 token 而非單個 token 的技術。在這裡,在每個位置 $t$,額外的小型預測頭(線性層)輸出 $t+1 \dots t+k$ 的 logit,我們對這些偏移量的交叉熵損失求和(在 MTP 論文中,研究人員建議 $k=4$)。
這種額外的信號加速了訓練,而推理時仍可保持一次生成一個 token,如下圖所示。
DeepSeek V3 報告在訓練期間使用了 MTP-1(即額外 1 個 token 的 MTP),然後在推理期間使 MTP 成為可選。
Step 3.5 Flash 在訓練和推理期間都使用了帶有 3 個額外 token 的 MTP (MTP-3)(請注意,MTP 通常不用於推理,這是一個例外)。
請注意,前述的 Arcee Trinity 和 Kimi K2.5 不使用 MTP,但其他架構已經使用了類似 Step 3.5 Flash 的 MTP-3 設置,例如 GLM-4.7 和 MiniMax M2.1。
2026 年 2 月初,Qwen 團隊分享了 80B 的 Qwen3-Coder-Next 模型(激活 3B 參數),因其在編程任務上超越了 DeepSeek V3.2(激活 37B)、Kimi K2.5 和 GLM-4.7(均激活 32B)等大得多的模型而成為頭條新聞。
此外,如上面的基準測試圖所示,Qwen3-Coder-Next 的 SWE-Bench Pro 性能與 Claude Sonnet 4.5 大致持平(僅略低於 Claude Opus 4.5),這對於一個相對較小的開放權重模型來說非常令人印象深刻!
在本地使用 ollama 版本的 Qwen3-Coder-Next,該模型佔用約 48.2 GB 的存儲空間和 51 GB 的 RAM。
請注意,Qwen3-Coder-Next 背後的架構與 Qwen3-Next 80B 完全相同(事實上,預訓練的 Qwen3-Next 80B 被用作進一步中期和後期訓練的基礎模型)。下圖 16 顯示了 Qwen3-Next 架構與常規 Qwen3 235B 模型的對比參考。
新的 Qwen3 Next 架構脫穎而出,因為儘管規模比之前的 235B-A22B 模型小 3 倍,但它引入了四倍數量的專家,甚至增加了一個共享專家。這兩種設計選擇(高專家數量和包含共享專家)。
另一個亮點是他們將常規注意力機制替換為 Gated DeltaNet + Gated Attention 混合機制,這有助於在內存使用方面實現原生的 262k token 上下文長度(235B-A22B 模型原生支持 32k,通過 YaRN 縮放支持 131k)。
那麼這種新的注意力混合機制是如何運作的呢?與分組查詢注意力 (GQA) 相比(GQA 仍是標準的縮放點積注意力,通過在查詢頭組之間共享 K/V 來減少 KV 快取大小和內存帶寬,但其解碼成本和快取仍隨序列長度增長),他們的混合機制將 Gated DeltaNet 區塊與 Gated Attention 區塊以 3:1 的比例混合,如圖 17 所示。
我們可以將門控注意力區塊視為 GQA 中使用的標準縮放點積注意力,並在其之上進行了一些調整。門控注意力與普通 GQA 區塊的主要區別在於:
請注意,這些本質上只是對 GQA 的穩定性改進。
Gated DeltaNet 是一個更顯著的變化。在 DeltaNet 區塊中,$q, k, v$ 和兩個門控 ($\alpha, \beta$) 由帶有歸一化的線性層和輕量級卷積層產生,該層用快速權重增量規則(delta rule)更新取代了注意力。
然而,權衡之處在於 DeltaNet 提供的基於內容的檢索精確度低於完整注意力,這就是為什麼保留了一個門控注意力層的原因。
鑑於注意力呈二次方增長,加入 DeltaNet 組件是為了幫助提高內存效率。在「線性時間、無快取」家族中,DeltaNet 區塊本質上是 Mamba 的替代方案。Mamba 通過學習的狀態空間濾波器(本質上是隨時間變化的動態卷積)來保持狀態。DeltaNet 則保持一個微小的、使用 $\alpha$ 和 $\beta$ 更新的快速權重內存,並使用 $q$ 讀取它,僅使用小型卷積來幫助形成 $q, k, v, \alpha, \beta$。
有關注意力混合和 Qwen3-Next 架構的更多細節,請參閱我之前的文章《超越標準 LLM》。
由於本文主要關注 LLM 架構,訓練細節超出了範圍。不過,感興趣的讀者可以在 GitHub 上的詳細技術報告中找到更多資訊。
2 月 12 日發佈的 GLM-5 是一件大事,因為在發佈時,它似乎與主要的旗艦 LLM 產品持平,包括 GPT-5.2 extra-high、Gemini Pro 3 和 Claude 4.6 Opus。(即便如此,基準測試性能並不一定等同於現實世界的表現。)
不久前,GLM-4.7(2025 年 12 月)還是最強的開放權重模型之一。根據圖 18 所示的基準測試,GLM-5 展現了重大的建模性能提升。這種飛躍可能部分歸功於訓練流程的改進,但很大程度上歸功於其參數數量從 GLM-4.7 的 355B 翻倍至 GLM-5 的 744B。這一規模增長使 GLM-5 在規模上介於 DeepSeek V3.2 (671B) 和 Kimi K2.5 (1T) 之間。
比較前述 Kimi K2.5 (1T) 的基準測試數據,規模較小的 GLM-5 (744B) 模型似乎略微領先,如下表所示。
與 GLM-4.7 及目前討論過的所有其他模型一樣,GLM-5 也是一個混合專家模型。每個 token 的激活參數數量僅略微增加,從 GLM-4.7 的 32B 增加到 GLM-5 的 40B。
如圖 20 所示,GLM-5 現在採用了 DeepSeek 的多頭潛在注意力 (MLA) 以及 DeepSeek 稀疏注意力。(我在《從 DeepSeek V3 到 V3.2:架構、稀疏注意力和 RL 更新》中更詳細地描述了 DeepSeek 稀疏注意力。)
這些修改可能是為了在處理長文本時降低推理成本。除此之外,整體架構保持相對相似。
相對於 GLM-4.7 的總規模增加主要來自於擴展專家數量,從 160 個 (GLM-4.7) 增加到 256 個 (GLM-5),並略微增加層維度(同時保持每個 token 激活 8 個常規專家 + 1 個共享專家不變)。例如,嵌入維度和專家大小從 5,120 增加到 6,144,中間投影大小從 1,536 增加到 2,048。
有趣的是,Transformer 層數從 GLM-4.7 的 92 層減少到 GLM-5 的 78 層。我推測這一變化也是為了降低推理成本並改善延遲,因為層深度無法像寬度那樣進行並行化。
此外,我還查看了一個獨立基準測試(此處為幻覺排行榜),GLM-5 確實與 Opus 4.5 和 GPT-5.2 持平(同時使用的 token 更少)。
此外,查看匯總了各種基準測試的最新人工智能指數(Artificial Intelligence Index),GLM-5 確實略微領先於 Kimi K2.5,僅落後 GPT-5.2 (xhigh) 和最近的 Claude Sonnet 4.6 一分。
前述的 GLM-5 和 Kimi K2.5 是受歡迎的開放權重模型,但根據 OpenRouter 的統計數據,它們在同樣於 2 月 12 日發佈的 MiniMax M2.5 面前顯得相形見絀。
OpenRouter 是一個平台和 API,允許開發者訪問並在來自各個供應商的許多不同 LLM 之間路由請求。請注意,雖然其使用統計數據是開放權重模型受歡迎程度的一個很好的指標,但它對開放權重模型(相對於專有模型)有嚴重的偏見,因為大多數用戶直接通過官方平台使用專有模型。開放權重模型之間也存在使用偏見,因為許多人也通過官方開發者的 API 使用開放權重模型。無論如何,它仍然是一個可以估算對於大多數用戶來說太大而無法在本地運行的開放權重模型相對受歡迎程度的有趣地方。
現在回到 MiniMax M2.5。彙整來自 SWE-Bench Verified 編程基準測試的 GLM-5 數據,並結合報告的 MiniMax M2.5 數據,後者似乎是一個略強的模型(至少在編程方面)。
邊註:看到 Opus 4.5 和 Opus 4.6 在 SWE-Bench Verified 上的得分幾乎完全相同,這很有趣。這可能表明 LLM 的進展已經停滯。但我認為這並非事實,因為 Opus 4.6 的用戶可以確認該模型在現實使用中確實表現更好。因此,這裡更可能的問題是 SWE-Bench Verified 基準測試已經飽和,從現在起它可能不再是一個有意義的報告基準(轉而支持其他基準,例如 SWE-Bench Pro)。所謂飽和,是指它可能由於設計問題而包含無法解決的問題(正如最近的 Reddit 討論串和 OpenAI 的新文章《為什麼 SWE-bench Verified 不再衡量前沿編程能力》中所討論的那樣)。
無論如何,回到 MiniMax M2.5 性能的主題。從更廣泛的基準測試選擇來看,根據人工智能指數的匯總,GLM-5 仍然領先。這或許並不令人意外,因為 GLM-5 仍是一個比 M2.5 大 4 倍的模型,儘管兩者的 token/sec 吞吐量非常相似。
我認為 MiniMax M2.5 的受歡迎程度部分歸功於它是一個更小、更便宜的模型,且具有大致相似的建模性能(即性價比高)。
在架構方面,MiniMax M2.5 是一個 230B 模型,採用了相當經典的設計:僅使用普通的分組查詢注意力 (GQA),沒有滑動窗口注意力或其他效率改進。
到目前為止,這也是本報告中第一個沒有附帶詳細技術報告的架構,但你可以在模型中心頁面上找到額外資訊。
在這一節中,我們將轉換方向,終於要介紹一個可以在筆記本電腦上本地運行的較小模型。但在討論 Nanbeige 4.1 3B 之前,我們先從一些背景開始。
Qwen 模型一直是非常受歡迎的模型。我經常講一個故事:幾年前當我擔任 NeurIPS LLM 效率挑戰賽的顧問時,大多數獲勝方案都是基於 Qwen 模型的。
現在,Qwen3 可能是使用最廣泛的開放權重模型系列之一,因為它們涵蓋了如此廣泛的規模和用例(從 0.6B 到 235B)。
特別是較小的模型(80B 及以下,如前述的 Qwen3-Next)非常適合在消費級硬件上本地使用。
我提到這一切的原因是,Nanbeige 4.1 3B 似乎瞄準了 Qwen3 如此受歡迎的「小型」LLM 設備端用例。根據 Nanbeige 4.1 3B 的基準測試,他們的模型遠遠領先於 Qwen3(這或許並不令人意外,考慮到 Qwen3 已經發佈快一年了)。
在架構方面,Nanbeige 4.1 3B 類似於 Qwen3 4B,而後者又與 Llama 3.2 3B 非常相似。我在下方將 Nanbeige 4.1 3B 與 Llama 3.2 3B 並列顯示,因為它們在規模上最為接近。
Nanbeige 4.1 3B 使用了與 Llama 3.2 3B 相同的架構組件,僅有一些細微的縮放差異(略小的嵌入維度和較大的中間投影等)。上圖未顯示的一個區別是,Nanbeige 沒有將輸入嵌入權重與輸出層權重綁定(weight tying),而 Llama 3.2 3B 則有。(根據我的經驗,權重綁定是減少總參數數量的好方法,但它幾乎總是會導致訓練性能下降,這可以從較高的訓練和驗證損失中得到證明。)
如前所述,本文主要關注架構比較。在這種情況下,大部分性能提升(與 Nanbeige 4 3B 前身相比)來自於額外的後期訓練,包括監督微調和強化學習,感興趣的讀者可以在詳細的技術報告中找到更多資訊。
雖然前一節簡要提到了 Qwen3 作為最開放權重的模型系列,但由於其發佈已近一年(如果不算面向效率的 Qwen3-Next 變體),它已顯得有些老舊。然而,Qwen 團隊剛剛在 2 月 15 日發佈了新的 Qwen3.5 模型變體。
Qwen3.5 397B-A17B 是一個混合專家模型 (MoE),擁有 397B 參數(每個 token 激活 17B),比最大的 Qwen3 模型(235B 參數)更進一步。(雖然還有 1 萬億參數的 Qwen3-Max 模型,但它從未作為開放權重模型發佈。)
必備的基準測試概覽顯示,Qwen3.5 在各方面都超越了之前的 Qwen3-Max 模型,並更加注重代理終端編程應用(這是今年的主要主題)。在純代理編程性能(例如 SWE-Bench Verified)方面,Qwen3.5 似乎與 GLM-5 和 MiniMax M2.5 大致持平。
鑑於 Qwen 團隊喜歡發佈單獨的編程模型(例如我們之前討論過的 Qwen3-Coder-Next),這讓我很好奇潛在的 Qwen3.5-Coder 會表現如何。
在架構方面,Qwen3.5 採用了 Qwen3-Next 和 Qwen3-Coder-Next(第 4 節)使用的混合注意力模型(具有 Gated DeltaNet)。這很有趣,因為 Qwen3-Next 模型最初是作為全注意力 Qwen3 模型的替代方案,但這表明 Qwen 團隊現在已將混合注意力機制納入其主線模型。
除了如上圖所示擴大模型規模外,Qwen3.5 現在還包括多模態支持(以前僅在單獨的 Qwen3-VL 模型中提供)。
無論如何,Qwen3.5 是 Qwen 系列的一次不錯的更新,我希望未來也能看到較小的 Qwen3.5 變體!
更新:就在我完成這篇文章時,Qwen 團隊推出了上述的較小模型變體:
Ling 2.5(以及推理變體 Ring 2.5)是 1 萬億參數的 LLM,採用了與 Qwen3.5 和 Qwen3-Next 精神相似的混合注意力架構。
然而,他們沒有使用 Gated DeltaNet,而是使用了一種略微簡單的循環線性注意力變體,稱為 Lightning Attention。此外,Ling 2.5 採用了來自 DeepSeek 的多頭潛在注意力 (MLA) 機制。
就絕對基準測試性能而言,Ling 2.5 並不是最強的模型,但其賣點是在長文本中具有非常好的效率(歸功於混合注意力)。遺憾的是,目前還沒有與 Qwen3.5 的直接比較,但與 Kimi K2(1T 參數;與 Ling 2.5 規模相同)相比,Ling 2.5 在 32k token 的序列長度下實現了 3.5 倍的吞吐量。
Tiny Aya 於 2 月 17 日發佈,是 Cohere 推出的一款新的「小型」LLM,據稱是 3B 參數級別中「最強大的多語言開放權重模型」。(根據公告,Tiny Aya 的表現優於 Qwen3-4B、Gemma 3 4B 和 Ministral 3 3B)。
這是一個非常適合在本地運行和實驗的模型。唯一的遺憾是,雖然它是開放權重模型,但其許可條款相對受限,僅允許非商業用途。
除此之外,Aya 是一個 3.35B 參數的模型,有多種版本,可用於個人和(非商業)研究用途:
具體而言,以下是模型針對其進行優化的語言列表。
在架構方面,Tiny Aya 是一個經典的解碼器風格 Transformer,並帶有一些值得注意的修改(除了 SwiGLU 和分組查詢注意力等顯而易見的修改外),如下圖所示。
總體而言,該架構中最值得注意的亮點是並行 Transformer 區塊(parallel transformer blocks)。在這裡,並行 Transformer 區塊從同一個歸一化輸入中計算注意力和 MLP,然後在單個步驟中將兩者都添加到殘差中。我推測這是為了減少層內部的串行依賴,以提高計算吞吐量。
對於熟悉 Cohere 的 Command-A 架構的讀者來說,Tiny Aya 似乎是它的縮小版。此外,一個有趣的細節是 Tiny Aya 團隊放棄了 QK-Norm(在注意力機制內部應用於 key 和 query 的 RMSNorm);QK-Norm 已成為減少損失尖峰以提高訓練穩定性的標準做法。根據 Cohere 團隊的一位開發人員的說法,放棄 QK-Norm 是「因為它可能會干擾長文本性能」。
如你所知,我偶爾會從頭開始編寫架構代碼。由於我發現並行 Transformer 區塊非常有趣,且該模型在低端硬件上運行良好,我從頭開始實現了它(出於教育目的),你可以在 GitHub 上的此處找到它。
這篇文章是對 2026 年 2 月前後主要的開放權重 LLM 發佈的一次走馬觀花式的巡禮。如果說能從中學到什麼,那就是有各種模型架構(均源自原始的 GPT 模型)都表現良好。建模性能可能並不歸功於架構設計本身,而更多地歸功於數據集質量和訓練配方(這是一個適合另開文章討論的好話題)。
即便如此,架構設計仍然是構建成功 LLM 的重要組成部分,許多開發者似乎正傾向於添加越來越多的計算性能優化。例如,這包括採用 MLA(Kimi K2.5、GLM-5、Ling 2.5)和 DeepSeek 稀疏注意力(GLM-5),以及延續 Gated DeltaNet(Qwen3.5)或類似形式的線性注意力(Ling 2.5)。
此外,更經典的效率優化,如分組查詢注意力和滑動窗口注意力(Arcee Trinity、Step 3.5 Flash、Tiny Aya)仍然很受歡迎。在新發佈的模型中,只有 MiniMax M2.5 和 Nanbeige 4.1 在這方面保持了非常經典的設計,僅使用分組查詢注意力而沒有任何其他效率優化。
DeepSeek V4 是每個人都在期待的模型。遺憾的是,截至本文撰寫時,它尚未發佈。不過,我計劃在它發佈後將其添加到本文中,這很可能在 3 月的第一週或之前。
另一個有趣的模型是來自印度的 Sarvam (30B & 100B)。該模型最近剛宣佈,但尚未發佈。也請繼續關注此處的更新。