newsence
來源篩選

Sarvam 105B, the first competitive Indian open source LLM

Hacker News

Sarvam AI has announced the open-sourcing of its 30B and 105B parameter models, marking a significant milestone for India's AI ecosystem. These models aim to provide high-performance, localized language capabilities for developers to explore and build upon.

newsence

Sarvam 105B:印度首款具競爭力的開源大型語言模型

Hacker News
大約 5 小時前

AI 生成摘要

我們正式開源了 Sarvam 30B 和 105B 模型,這標誌著印度 AI 生態系統的重要里程碑。這些模型旨在提供高性能且在地化的語言能力,供開發者探索並開始創作。

背景

印度 AI 新創公司 Sarvam AI 近期宣布開源其自主研發的大型語言模型 Sarvam 30B 與 Sarvam 105B。這系列模型被定位為印度首款具備競爭力的開源大型語言模型,旨在填補印度本土語系在 AI 發展上的空白,並提供更符合當地文化與語言需求的技術解決方案。

社群觀點

儘管 Sarvam AI 試圖以「印度首款競爭力模型」作為號召,但在 Hacker News 社群中,技術開發者與評論者對其表現與定位提出了相當尖銳的質疑。首先,關於模型的實際效能,有評論指出該模型在發布初期就面臨嚴峻挑戰,甚至被參數規模僅有其十分之一的 Qwen 模型超越。批評者認為 Sarvam 在處理關鍵輸入或審核任務時表現不佳,且在技術實作上顯得不夠周全,例如未能在 Hugging Face 上提供官方空間,甚至在針對 Apple Silicon 的推理優化上選擇了硬體尚不支持的 MXFP4 格式,而非更普及的 GGUF Q4 量化方案。

除了技術細節,模型的訓練動機與資料來源也引發了討論。有觀點認為,全球 AI 市場不應僅僅是現有模型的衍生物,如果只是重複現有的架構而缺乏獨特的創意表達,將導致模型陷入局部優化的困境。評論者擔憂 Sarvam 是否只是在進行「複製貼上」的工作,而非真正承擔風險去探索新的架構或數據挖掘技術。對於一個新興模型而言,數據的獲取與增強方式是決定其是否能與 Qwen 等成熟模型做出區隔的關鍵,若缺乏推理性或架構層面的創新,世界可能並不需要另一個平庸的替代品。

最引發熱議的爭議點在於該模型的系統提示詞(System Prompt)。有網友揭露,Sarvam 的系統指令中明確要求模型不要採納外部的定性描述,特別是針對外國媒體或非政府組織所使用的「大屠殺」、「種族清洗」或「種族滅絕」等詞彙,除非這些詞彙獲得印度法院的認定。社群對此展開了諷刺性的評論,將這種對特定詞彙的防禦性立場比喻為一種荒謬的自我辯護,認為這種過度干預模型價值觀的做法,反映了開發者在處理敏感政治議題時的特定立場。這種對事實框架的預設限制,讓部分使用者對模型的客觀性與中立性產生了懷疑。

延伸閱讀

  • Sarvam AI 系統提示詞爭議討論:https://news.ycombinator.com/item?id=47137013