跨越數據不足的壁壘：合成人格加速日本 AI 開發進程

Huggingface

9 天前

AI 生成摘要

這項課題對於構建理解日語和日本文化的 AI 系統開發者而言尤為嚴峻。日本開發者正透過合成人格技術，解決缺乏文化根基數據的慢性問題，以克服開發週期中的成本與時間障礙。

跨越「數據不足」之壁：合成角色加速日本 AI 開發

對於致力於構建理解日語和日本文化的 AI 系統的開發者來說，這項挑戰尤為嚴峻。雖然英語的訓練數據非常豐富，但日本開發者卻面臨著慢性的數據短缺問題。為了在初期階段啟動高性能模型，極度缺乏針對特定任務且植根於日本文化的數據。收集、清理和標記新樣本既耗時又昂貴，難以跟上瞬息萬變的 AI 開發週期。

結果，在創新開始之前，就產生了一道阻礙創新的數據之壁。

邁向新進展之路

大型 IT 企業 NTT DATA 的一項新研究證明了合成數據如何打破這道牆。從手頭現有的極少量私有數據出發，在不損害隱私或模型性能的情況下，即可生成生產級的大規模訓練數據集。

NTT DATA 透過使用 NVIDIA Nemotron-Personas-Japan（這是 NVIDIA 首個開放合成數據集，使用 NeMo Data Designer 生成，由基於日本人口統計、地理和文化的 600 萬個角色組成），將模型準確度從 15.3% 大幅提升至 79.3%。

這意味著在不向訓練流水線洩露機密數據的情況下，實現了高達 60 個百分點的提升。

從中獲得的關鍵點是，企業可以使用完全開源的基礎設施，即使僅憑手頭極少量的私有數據，也能構建針對特定領域（業務領域）的 AI。透過活用開放的角色數據，可以同時實現更高品質的模型構建與更敏捷的數據運作。

實證實驗

為了嚴格驗證這種方法，NTT DATA 使用虛構的法律文件進行了對照評估，以確保模型能真正獲得新知識。透過活用從 Nemotron-Personas-Japan 提取的 500 個角色，僅將 450 條原始種子樣本進行擴展，就生成了超過 13 萬 8000 條訓練數據（相當於人工收集同等樣本的 300 倍合成數據集），並將模型準確度從 15.3% 提升至 79.3%。

這一結果生動地說明了企業所面臨的數據短缺挑戰。

使用合成數據進行訓練，不僅僅是提升了準確度，還消除了困擾基準模型的幻覺（Hallucination）問題。訓練前的模型雖然會生成看似合理但錯誤的法律分類，而經過微調的模型則能精確提取術語，且不增加任何雜訊。

在企業環境部署中，最有價值的發現或許是 NTT DATA 發現：只要能確保足夠數量的微調用合成數據，「持續預訓練（CPT）」就不再是必須的。這意味著開發者可以完全省略消耗大量運算資源的 CPT 階段，轉而專注於針對監督式微調（SFT）進行更具迭代性的合成數據生成，從而採用更具成本效益的訓練流水線。

這種效率的提升直接轉化為計算成本的降低和開發週期的加速。

極小量的私有數據，極大化的領域提升。

NTT DATA 技術革新統括本部 AI 技術部部長樋口晉也先生表示：「透過使用 Nemotron Personas 擴展少量的私有數據集，即使在可用數據有限的情況下，也能有效構建針對特定任務的模型。這種方法在私有數據往往不足的初步調查、客戶服務和行銷等領域，展現了提升成果的巨大潛力。」

從設計階段開始的隱私保護

雖然準確度的提升令人驚嘆，但同時也引發了更深層的問題。那些甚至無法進入（無法使用）訓練流水線的數據該怎麼辦？

由於隱私法規、安全風險和授權限制，超過 90% 的價值企業數據仍未被利用。在日本，《個人資訊保護法》（PIPA）以及重視創新的《AI 治理指南》（2025 年 9 月公佈）等框架都證實了這一現實。即使在 AI 進步加速的過程中，負責任的數據處理也是必不可少的。

合成數據提供了解決這一矛盾挑戰的路徑。透過生成不含個人識別資訊（PII）且能準確反映實際數據趨勢（模式）的訓練數據，企業可以同時實現數據最小化和模型性能提升。初期啟動僅需使用極少量的私有數據，之後再透過合成數據擴展至生產級規模即可。

換句話說，合成數據不僅僅是「優化訓練過程的方法」。它是實現數據合規與 AI 性能共存的理想平衡點（適居帶）的隱私強化技術（PET）。此外，由於數據合成流水線具備可重現性和可審計性，還能滿足治理團隊和監管機構日益要求的可靠性與透明度需求。

主權數據空間

對於構建主權 AI 的日本企業來說，數據主權是必要條件。然而，僅有主權是不夠的。模型還需要具備有根據的智能，這種智能並非統計性地偏向於以歐美為中心的語料庫，而是由地區特有的規範和領域限制所塑造。Nemotron-Personas-Japan 作為構建植根於此現實的 AI 基礎數據發揮作用。這 600 萬個角色基於日本官方的人口統計和勞動統計數據，涵蓋了 1,500 多個職業分類和地域分佈。

然而，其影響不僅限於個別組織。以 NTT DATA 為首的領先企業正積極致力於「數據空間（Data Space）」的開發。這是一個協作環境，政府和企業可以在共同的治理和隱私保證下，互相交換用於 AI 訓練的合成數據。聯邦學習（Federated Learning）等端到端加密技術使這種分佈式方法成為可能。合成數據將進一步強力推動這一進程，組織無需公開原始機密資訊，即可安全地提供自社數據趨勢（模式）的合成版本。

藉此，數據風險管理將從防禦姿態轉向符合日本所倡導的「創新主導型 AI 治理」願景的「協作姿態」。此外，這種方法也挑戰了「AI 的進化必須來自於全球訓練的少數巨型模型」這一固定觀念。相反地，它指明了一個未來：在開放且受隱私保護的基礎上，各個地區都能構建具有主權且可互操作的 AI 系統。

開始構建

「數據之壁」確實存在。然而，正如 NTT DATA 的研究所顯示，克服它的工具現在已經開放且任何人都可以取得。合成數據不再是「未來的技術」。它是開發者「現在」就可以引入現場的現實解決方案，旨在不犧牲隱私或性能的情況下，構建具備數據主權且植根於日本文化的 AI 系統。

現在就開始吧！您可以活用開源的 NeMo Data Designer 函式庫，或查看在 Hugging Face 上公開的 Nemotron-Personas-Japan 數據集。欲了解更多技術細節，請參閱涵蓋了方法與實驗設計的 NTT DATA 詳細報告（日語）。

Nemotron-Personas-Japan 基於 CC BY 4.0 授權，不論商用或非商用皆可使用。

社群

· 註冊或登入以發表評論

Overcoming the Data Scarcity Barrier: Synthetic Personas Accelerate AI Development in Japan

跨越「數據不足」之壁：合成角色加速日本 AI 開發

跨越「數據不足」之壁：合成角色加速日本 AI 開發

邁向新進展之路

實證實驗

從設計階段開始的隱私保護

主權數據空間

開始構建

社群