NVIDIA Nemotron 2 Nano 9B Japanese:支撐日本主權 AI 的尖端小規模語言模型
NVIDIA Nemotron 2 Nano 9B Japanese:支撐日本主權 AI 的尖端小規模語言模型
今天,NVIDIA 發布了 NVIDIA Nemotron-Nano-9B-v2-Japanese,該模型在 Nejumi Leaderboard 4 的 10B 參數以下類別中達到了最先進(SOTA)的性能。
本模型以易於部署的輕量化尺寸,實現了高度的日語理解能力與強大的 Agent(智能體)功能,是日本企業級 AI 開發的一個重要里程碑。這一成果建立在兩個重要的基礎之上:久經考驗的 Nemotron-Nano-9B-v2 架構,以及透過 Nemotron-Personas-Japan 實現的高品質日語合成數據生成(SDG)。
透過針對日語客製化已發布的 Nemotron 2 Nano 模型,我們旨在鼓勵社群開發並發布適用於多種應用場景與語言的客製化尖端模型。Nemotron 團隊將把從此次客製化中獲得的見解應用到未來的 Nemotron 版本中,以進一步強化日語的推理能力。
SLM(小規模語言模型)在日本企業中的重要性
日本企業級 AI 的關鍵缺口:目前日本的企業級 AI 環境面臨一項挑戰,即幾乎不存在兼具「高度日語能力」與「作為 Agentic AI 的任務執行能力」的 SLM。這在以下方面造成了導入障礙:
- 在地化部署需求:處理機密數據的企業必須在私有網絡內運行模型。參數低於 10B(100 億)的模型可以在維持實用級性能的同時,大幅降低基礎設施的導入門檻。
- 客製化效率提升:從具有實證 Agent 能力的強大日語基礎模型開始,可以縮短微調(Fine-tuning)週期。這使得計算資源能集中於特定領域的適配,而非基礎能力的構建。
- 加速 Agent 開發:憑藉本模型的架構與性能,可以在不產生大型模型那樣的高昂開銷下,快速進行多智能體系統與複雜工作流的原型設計。
善用實績豐厚的基礎
Nemotron 2 Nano:卓越的架構
Nemotron-Nano-9B-v2-Japanese 是基於 NVIDIA Nemotron-Nano-9B-v2 構建的,後者在英語基準測試中展現了卓越的尺寸性能比。我們以此高效架構為基礎進行了進一步的客製化,強化了其日語能力。該架構具有以下特點:
透過將此經過驗證的架構適配於日語,我們在維持基礎模型優勢的同時,實現了優異的日語能力。
Nemotron-Personas-Japan:高品質合成數據生成的種子集
本模型的數據策略重點在於將開源(CC BY 4.0)數據集「Nemotron-Personas-Japan」作為合成數據生成(SDG)的高品質種子。該數據集由基於日本現實世界的人口統計、地理分佈及性格特徵分佈所合成生成的「人格(Personas)」組成,捕捉了人口的多樣性與豐富性。以這些文化準確的人格為基礎,我們構建了一個高度多樣化、具備擴展性且穩健的訓練流水線。藉由種子數據中豐富的人格群體,我們得以高效擴展涵蓋多種場景與細微差別的合成數據集。透過這種方法,擴展數據在維持原始人格嚴格文化一致性的同時,達到了尖端訓練所需的規模。
特別是在 Nemotron-Nano-9B-v2-Japanese 中,我們將這些人格作為工具調用(Tool Calling)場景中訓練數據的生成基礎。這確保了模型獲得的能力不僅限於單純的工具調用功能,而是根植於文化適切的日語對話與現實世界的應用場景。
Nemotron-Personas 系列還包含美國、印度、新加坡與巴西的數據集,使得相同的方法可以跨區域複製。
訓練流水線
Nemotron-Nano-9B-v2-Japanese 結合了日語開源語料庫與 NVIDIA 的 Nemotron 技術棧,構建了從持續預訓練、合成數據生成到事後學習的完整流程。
持續預訓練
為了最大化模型的日語能力,我們進行了持續預訓練。在此過程中,我們充分利用了日本代表性開源 LLM 社群 LLM-jp 的資產。同時,我們也運用了 Nemotron Pre-training Datasets 以維持模型的 Agent 功能。
SFT(監督微調)
以 Nemotron-Personas-Japan 為種子構建的 Tool Calling 數據集在 SFT 中表現極其強大。性能提升不僅限於工具調用,還涵蓋了日語知識、問答(QA)與指令遵循等多個領域。此外,由於該種子集是基於 600 萬個人格構建的,我們得以有效地擴展 SDG。這使我們成功涵蓋了現實世界的多樣化場景,同時將重複率降至最低。Nemotron-Personas 系列正在擴大目標國家,日本以外的其他地區開發者也可以採取類似的方法。
用於 Nemotron-Nano-9B-v2-Japanese 的軟體
模型訓練繼承了 Nemotron Nano 2 所確立的訓練配方。這使我們能夠在不引起訓練不穩定性的情況下提高吞吐量。
透過這種方法,我們在維持穩健的工具調用功能與推理能力的同時,實現了作為強大日語語言模型的性能。
基準測試表現
Nemotron-Nano-9B-v2-Japanese 在日本最全面的 LLM 評估平台「Nejumi Leaderboard 4」中,榮獲 10B 以下模型類別的第一名。Nejumi Leaderboard 透過涵蓋以下領域的約 40 個基準測試,對模型進行多維度評估:
透過這些多維度的評估,Nejumi Leaderboard 已成為日本開發者在選擇用於客製化或實際運行的基礎模型時,值得信賴的參考依據。
基準測試結果證實,Nemotron-Nano-9B-v2-Japanese 成功地將強大的日語能力整合到了基礎模型 Nemotron-Nano-9B-v2 中。這些改進不僅限於日語知識與問答能力,還擴展到了工具調用、程式碼編寫與對齊(Alignment)等廣泛任務。值得注意的是,它超越了同等尺寸的 Qwen3-8B,實現了優異的尺寸性能比。
技術優勢
部署選項
- 直接部署:在需要高度日語理解與 Agent 技能的應用中,可以直接部署並活用該模型。其預訓練的能力支持立即整合到 Agent 工作流中。Nemotron 2 Nano 支持的推理引擎可以無縫遷移。
- 作為客製化基礎:Nemotron-Nano-9B-v2-Japanese 可作為針對特定領域進行微調的基礎。其在基準測試中證實的日語及 Agent 任務的優異性能,為專業應用開發提供了強大的起點。客製化可使用 NeMo Framework(NeMo Megatron-Bridge, NeMo AutoModel, 以及 NeMo-RL)。
立即開始使用
日本的 AI 應用開發者現在即可開始使用 Nemotron-Nano-9B-v2-Japanese。無論是客戶服務 Agent、企業內部自動化工具,還是領域特定型助手,本模型都能提供實際部署所需的優異尺寸性能比。
Nemotron 2 Nano 經過驗證的架構,結合高品質數據集種子 Nemotron-Personas-Japan,將成為日本主權 AI 開發的高效起點。
我們歡迎社群成員善用 Nemotron 模型、數據集、配方與函式庫,並針對更多語言或應用場景客製化 Nemotron 模型。我們非常期待看到各位將構建出什麼樣的作品!
訂閱 NVIDIA 新聞並在 LinkedIn、X、YouTube 上關注 NVIDIA AI,以及 Discord 上的 Nemotron 頻道,隨時掌握 NVIDIA Nemotron 的最新動態。
在 Hugging Face 上獲取開源的 Nemotron 模型,並在 build.nvidia.com 上獲取 NIM 微服務系列與開發者範例。
社群
· 註冊或登入以發表評論