newsence
來源篩選

Overcoming the Data Scarcity Barrier: Synthetic Personas Accelerate AI Development in Japan

Huggingface

Japanese AI developers are tackling the chronic shortage of culturally relevant training data by utilizing synthetic personas to build high-performance models that understand local nuances.

newsence

跨越數據不足的壁壘:合成人格加速日本 AI 開發進程

Huggingface
9 天前

AI 生成摘要

這項課題對於構建理解日語和日本文化的 AI 系統開發者而言尤為嚴峻。日本開發者正透過合成人格技術,解決缺乏文化根基數據的慢性問題,以克服開發週期中的成本與時間障礙。

跨越「數據不足」之壁:合成角色加速日本 AI 開發

Image

跨越「數據不足」之壁:合成角色加速日本 AI 開發

Image Image Image Image Image Image Image Image Image Image Image Image Image Image Image Image

對於致力於構建理解日語和日本文化的 AI 系統的開發者來說,這項挑戰尤為嚴峻。雖然英語的訓練數據非常豐富,但日本開發者卻面臨著慢性的數據短缺問題。為了在初期階段啟動高性能模型,極度缺乏針對特定任務且植根於日本文化的數據。收集、清理和標記新樣本既耗時又昂貴,難以跟上瞬息萬變的 AI 開發週期。

結果,在創新開始之前,就產生了一道阻礙創新的數據之壁。

邁向新進展之路

大型 IT 企業 NTT DATA 的一項新研究證明了合成數據如何打破這道牆。從手頭現有的極少量私有數據出發,在不損害隱私或模型性能的情況下,即可生成生產級的大規模訓練數據集。

Image

NTT DATA 透過使用 NVIDIA Nemotron-Personas-Japan(這是 NVIDIA 首個開放合成數據集,使用 NeMo Data Designer 生成,由基於日本人口統計、地理和文化的 600 萬個角色組成),將模型準確度從 15.3% 大幅提升至 79.3%。

這意味著在不向訓練流水線洩露機密數據的情況下,實現了高達 60 個百分點的提升。

從中獲得的關鍵點是,企業可以使用完全開源的基礎設施,即使僅憑手頭極少量的私有數據,也能構建針對特定領域(業務領域)的 AI。透過活用開放的角色數據,可以同時實現更高品質的模型構建與更敏捷的數據運作。

實證實驗

為了嚴格驗證這種方法,NTT DATA 使用虛構的法律文件進行了對照評估,以確保模型能真正獲得新知識。透過活用從 Nemotron-Personas-Japan 提取的 500 個角色,僅將 450 條原始種子樣本進行擴展,就生成了超過 13 萬 8000 條訓練數據(相當於人工收集同等樣本的 300 倍合成數據集),並將模型準確度從 15.3% 提升至 79.3%。

這一結果生動地說明了企業所面臨的數據短缺挑戰。

使用合成數據進行訓練,不僅僅是提升了準確度,還消除了困擾基準模型的幻覺(Hallucination)問題。訓練前的模型雖然會生成看似合理但錯誤的法律分類,而經過微調的模型則能精確提取術語,且不增加任何雜訊。

在企業環境部署中,最有價值的發現或許是 NTT DATA 發現:只要能確保足夠數量的微調用合成數據,「持續預訓練(CPT)」就不再是必須的。這意味著開發者可以完全省略消耗大量運算資源的 CPT 階段,轉而專注於針對監督式微調(SFT)進行更具迭代性的合成數據生成,從而採用更具成本效益的訓練流水線。

這種效率的提升直接轉化為計算成本的降低和開發週期的加速。

極小量的私有數據,極大化的領域提升。

NTT DATA 技術革新統括本部 AI 技術部部長 樋口晉也先生表示:「透過使用 Nemotron Personas 擴展少量的私有數據集,即使在可用數據有限的情況下,也能有效構建針對特定任務的模型。這種方法在私有數據往往不足的初步調查、客戶服務和行銷等領域,展現了提升成果的巨大潛力。」

Image

從設計階段開始的隱私保護

雖然準確度的提升令人驚嘆,但同時也引發了更深層的問題。那些甚至無法進入(無法使用)訓練流水線的數據該怎麼辦?

由於隱私法規、安全風險和授權限制,超過 90% 的價值企業數據仍未被利用。在日本,《個人資訊保護法》(PIPA)以及重視創新的《AI 治理指南》(2025 年 9 月公佈)等框架都證實了這一現實。即使在 AI 進步加速的過程中,負責任的數據處理也是必不可少的。

合成數據提供了解決這一矛盾挑戰的路徑。透過生成不含個人識別資訊(PII)且能準確反映實際數據趨勢(模式)的訓練數據,企業可以同時實現數據最小化和模型性能提升。初期啟動僅需使用極少量的私有數據,之後再透過合成數據擴展至生產級規模即可。

換句話說,合成數據不僅僅是「優化訓練過程的方法」。它是實現數據合規與 AI 性能共存的理想平衡點(適居帶)的隱私強化技術(PET)。此外,由於數據合成流水線具備可重現性和可審計性,還能滿足治理團隊和監管機構日益要求的可靠性與透明度需求。

主權數據空間

對於構建主權 AI 的日本企業來說,數據主權是必要條件。然而,僅有主權是不夠的。模型還需要具備有根據的智能,這種智能並非統計性地偏向於以歐美為中心的語料庫,而是由地區特有的規範和領域限制所塑造。Nemotron-Personas-Japan 作為構建植根於此現實的 AI 基礎數據發揮作用。這 600 萬個角色基於日本官方的人口統計和勞動統計數據,涵蓋了 1,500 多個職業分類和地域分佈。

然而,其影響不僅限於個別組織。以 NTT DATA 為首的領先企業正積極致力於「數據空間(Data Space)」的開發。這是一個協作環境,政府和企業可以在共同的治理和隱私保證下,互相交換用於 AI 訓練的合成數據。聯邦學習(Federated Learning)等端到端加密技術使這種分佈式方法成為可能。合成數據將進一步強力推動這一進程,組織無需公開原始機密資訊,即可安全地提供自社數據趨勢(模式)的合成版本。

藉此,數據風險管理將從防禦姿態轉向符合日本所倡導的「創新主導型 AI 治理」願景的「協作姿態」。此外,這種方法也挑戰了「AI 的進化必須來自於全球訓練的少數巨型模型」這一固定觀念。相反地,它指明了一個未來:在開放且受隱私保護的基礎上,各個地區都能構建具有主權且可互操作的 AI 系統。

開始構建

「數據之壁」確實存在。然而,正如 NTT DATA 的研究所顯示,克服它的工具現在已經開放且任何人都可以取得。合成數據不再是「未來的技術」。它是開發者「現在」就可以引入現場的現實解決方案,旨在不犧牲隱私或性能的情況下,構建具備數據主權且植根於日本文化的 AI 系統。

現在就開始吧!您可以活用開源的 NeMo Data Designer 函式庫,或查看在 Hugging Face 上公開的 Nemotron-Personas-Japan 數據集。欲了解更多技術細節,請參閱涵蓋了方法與實驗設計的 NTT DATA 詳細報告(日語)。

Nemotron-Personas-Japan 基於 CC BY 4.0 授權,不論商用或非商用皆可使用。

社群

· 註冊或登入以發表評論