Mercury 2: The fastest reasoning LLM, powered by diffusion
Hacker News
Mercury 2 is a new diffusion-based LLM that achieves over 1,000 tokens per second by using parallel refinement instead of sequential decoding, offering high-speed reasoning for production AI.
針對技術實作與展示,社群中出現了一些批評與觀察。有使用者反映其線上測試介面的延遲感明顯,推測可能是後端排隊機制抵銷了模型本身的生成速度優勢,導致使用者無法直觀感受宣稱的效能。此外,對於擴散模型在語言處理上的前景,部分評論者持觀望態度,認為儘管 Google 等大廠也曾投入相關研究,但目前在帕累托效率前沿上,擴散模型在多數通用場景仍落後於主流架構。同時,也有人批評官方公告缺乏詳細的推理基準測試對比與參數規模資訊,且部分企業證言聽起來過於官腔,缺乏實際量產環境的說服力。