Sarvam 105B：印度首款具競爭力的開源大型語言模型

Hacker News

大約 5 小時前

AI 生成摘要

我們正式開源了 Sarvam 30B 和 105B 模型，這標誌著印度 AI 生態系統的重要里程碑。這些模型旨在提供高性能且在地化的語言能力，供開發者探索並開始創作。

sarvam.ai

sarvam 30b 105b

背景

印度 AI 新創公司 Sarvam AI 近期宣布開源其自主研發的大型語言模型 Sarvam 30B 與 Sarvam 105B。這系列模型被定位為印度首款具備競爭力的開源大型語言模型，旨在填補印度本土語系在 AI 發展上的空白，並提供更符合當地文化與語言需求的技術解決方案。

社群觀點

儘管 Sarvam AI 試圖以「印度首款競爭力模型」作為號召，但在 Hacker News 社群中，技術開發者與評論者對其表現與定位提出了相當尖銳的質疑。首先，關於模型的實際效能，有評論指出該模型在發布初期就面臨嚴峻挑戰，甚至被參數規模僅有其十分之一的 Qwen 模型超越。批評者認為 Sarvam 在處理關鍵輸入或審核任務時表現不佳，且在技術實作上顯得不夠周全，例如未能在 Hugging Face 上提供官方空間，甚至在針對 Apple Silicon 的推理優化上選擇了硬體尚不支持的 MXFP4 格式，而非更普及的 GGUF Q4 量化方案。

除了技術細節，模型的訓練動機與資料來源也引發了討論。有觀點認為，全球 AI 市場不應僅僅是現有模型的衍生物，如果只是重複現有的架構而缺乏獨特的創意表達，將導致模型陷入局部優化的困境。評論者擔憂 Sarvam 是否只是在進行「複製貼上」的工作，而非真正承擔風險去探索新的架構或數據挖掘技術。對於一個新興模型而言，數據的獲取與增強方式是決定其是否能與 Qwen 等成熟模型做出區隔的關鍵，若缺乏推理性或架構層面的創新，世界可能並不需要另一個平庸的替代品。

最引發熱議的爭議點在於該模型的系統提示詞（System Prompt）。有網友揭露，Sarvam 的系統指令中明確要求模型不要採納外部的定性描述，特別是針對外國媒體或非政府組織所使用的「大屠殺」、「種族清洗」或「種族滅絕」等詞彙，除非這些詞彙獲得印度法院的認定。社群對此展開了諷刺性的評論，將這種對特定詞彙的防禦性立場比喻為一種荒謬的自我辯護，認為這種過度干預模型價值觀的做法，反映了開發者在處理敏感政治議題時的特定立場。這種對事實框架的預設限制，讓部分使用者對模型的客觀性與中立性產生了懷疑。

Sarvam 105B, the first competitive Indian open source LLM

背景

社群觀點

延伸閱讀