newsence
來源篩選

Mercury 2: The fastest reasoning LLM, powered by diffusion

Hacker News

Mercury 2 is a new diffusion-based LLM that achieves over 1,000 tokens per second by using parallel refinement instead of sequential decoding, offering high-speed reasoning for production AI.

newsence

Mercury 2:由擴散模型驅動、全球最快的推理大型語言模型

Hacker News
4 天前

AI 生成摘要

Mercury 2 是一款全新的擴散型大型語言模型,透過平行精煉而非序列解碼,實現每秒超過 1,000 個標記的生成速度,為生產環境中的人工智慧提供極速推理能力。

背景

Inception 實驗室近期發表了 Mercury 2,這是一款基於擴散模型(Diffusion)架構而非傳統自回歸解碼的推理型大型語言模型。該模型主打極致的生成速度,在 NVIDIA Blackwell GPU 上可達到每秒超過一千個標記的吞吐量,旨在解決當前 AI 代理與檢索增強生成(RAG)流程中,因連續解碼導致的延遲累積問題。

社群觀點

Hacker News 的討論主要圍繞在「速度如何轉化為實質生產力」以及擴散模型架構的實際優勢。支持者認為,這種四位數等級的每秒標記生成速度將徹底改變開發者的互動模式。有觀點指出,極速模型能讓系統在使用者毫無察覺的情況下,於背景執行多次提示詞微調或多輪對話,有效修正模型常見的幻覺或非確定性行為。這種「以速度換取精確度」的策略,讓開發者能負擔得起更複雜的代理工作流,例如在程式碼編輯時同時探索多個解決方案空間,並結合編譯器或靜態分析工具進行即時驗證,而非僅僅是更快地產出可能錯誤的程式碼。

然而,部分使用者對這種速度優勢抱持保留態度。有討論質疑,在實際的程式開發場景中,目前的瓶頸往往在於模型的邏輯推理能力而非生成速度,若模型本身的「智力」未達頂尖水準,單純的快速輸出並無法解決核心問題。不過,也有反論認為「每秒智力值」是一個值得關注的新指標,當模型達到一定的品質門檻後,更快的反應速度能帶來更高的迭代效率,這與使用者從深度研究模式轉向更快速的思考模式之行為轉變不謀而合。

針對技術實作與展示,社群中出現了一些批評與觀察。有使用者反映其線上測試介面的延遲感明顯,推測可能是後端排隊機制抵銷了模型本身的生成速度優勢,導致使用者無法直觀感受宣稱的效能。此外,對於擴散模型在語言處理上的前景,部分評論者持觀望態度,認為儘管 Google 等大廠也曾投入相關研究,但目前在帕累托效率前沿上,擴散模型在多數通用場景仍落後於主流架構。同時,也有人批評官方公告缺乏詳細的推理基準測試對比與參數規模資訊,且部分企業證言聽起來過於官腔,缺乏實際量產環境的說服力。

延伸閱讀

在討論中,有使用者分享了 Artificial Analysis 網站針對 Mercury 2 的效能評測頁面,該連結提供了關於價格與性能表現的詳細數據對比,對於想了解該模型在市場定位中具體競爭力的讀者具有參考價值。