從稀缺到規模:合成人格特質如何引導日本 AI 發展
從稀缺到規模:合成人格特質如何引導日本 AI 發展
對於開發理解日語語言與文化的 AI 系統的開發者來說,這項挑戰尤為嚴峻。雖然英語訓練數據非常豐富,但日本開發者面臨著持續的數據稀缺問題:缺乏足夠的特定任務、具備文化背景的數據來引導高性能模型的開發。收集、清洗和標註新樣本的速度緩慢且成本高昂,很難趕上迭代週期的步伐。
其結果是形成了一道「數據牆」,在創新開始前就將其阻斷。
一條新的前進道路
來自領先 IT 企業 NTT DATA 的最新研究展示了合成數據如何拆除這道牆——在保護隱私和性能的同時,將極少量的專有數據轉化為生產規模的訓練集。
透過使用 Nemotron-Personas-Japan(NVIDIA 的開放合成數據集,包含 600 萬個使用 NeMo Data Designer 生成、具備文化背景的日本人物人格特質),NTT DATA 實現了模型準確度的巨大提升,從 15.3% 提高到 79.3%。
這是在不將敏感數據暴露給訓練管線的情況下,實現了超過 60 個百分點的改進。
啟示在於:企業可以使用完全開源的基礎設施,以極少量的專有數據引導特定領域的智能。開放的人格特質數據既能實現更好的模型,也能實現更敏捷的數據運作。
實驗過程
為了嚴格測試這種方法,NTT DATA 使用虛構的法律文件創建了一個受控評估,確保模型必須獲取真正的新知識。他們利用來自 Nemotron-Personas-Japan 的 500 個人格特質,將僅有的 450 個原始種子樣本進行擴展,生成了超過 138,000 個訓練樣本——這是一個比手動樣本大 300 倍的合成數據集——並將模型準確度從 15.3% 提升至 79.3%。
實驗結果直接回應了企業面臨的數據稀缺挑戰:
除了原始準確度外,合成訓練數據還消除了困擾基準模型的幻覺問題。在未經訓練的模型會編造看似合理但錯誤的法律分類之處,微調後的版本學會了提取精確的術語而不會增加雜訊。
對於企業部署來說,或許最有價值的一點是:NTT DATA 發現,當有足夠的合成微調數據時,持續預訓練(CPT)變得不再是必須。這表明開發者可以利用更具成本效益的訓練管線,完全跳過資源密集型的 CPT 階段,轉而專注於更具迭代性的合成數據生成,以進行監督式微調(SFT)。
這種效率提升直接轉化為計算成本的降低和更快的迭代週期。
極簡的專有數據,極大的領域提升。
「透過使用 Nemotron Personas 擴展少量的專有數據集,即使在數據可用性有限的情況下,我們也能有效地構建特定任務的模型,」NTT DATA 技術與創新總部 AI 技術部高級經理 樋口真也(Shinya Higuchi)表示。「這種方法在改善前期研究、客戶支援和行銷應用等專有數據稀缺領域的成果方面,展現了強大的潛力。」
原生隱私設計
準確度的提升令人信服,但也引發了一個更深層的問題:那些從未進入管線的數據該怎麼辦?
由於隱私法規、安全風險和授權限制,超過 90% 的寶貴企業數據仍未被開發。在日本,像《個人信息保護法》(PIPA)以及該國於 2025 年 9 月發布的創新優先 AI 治理指南等框架強化了這一現實:即使 AI 進步加速,負責任的數據處理也不是可選項。
合成數據為解決這種緊張關係提供了一條路徑。透過生成捕捉真實模式但不含個人識別資訊(PII)的訓練樣本,組織可以同時實現數據最小化和模型性能。只需暴露極少量的專有數據進行引導,然後合成擴展到生產規模。
因此,合成數據不僅僅是訓練優化:它是一種隱私增強技術(PET),創造了一個數據合規與 AI 能力共存的理想地帶。而且由於合成管線是可重複且可審計的,它們也支持治理團隊和監管機構日益要求的信任與透明度需求。
主權數據空間
對於構建主權 AI 的日本企業來說,數據主權是先決條件。但僅有主權是不夠的;模型還需要具備落地智能:其行為應由當地規範和領域約束塑造,而非僅僅依賴於對西方中心語料庫的統計暴露。Nemotron-Personas-Japan 作為這種落地的數據原語:600 萬個人格特質植根於日本官方的人口統計和勞動統計數據,涵蓋 1,500 多個職業類別和地區分佈。
但其影響超出了單個組織。NTT DATA 和其他領導者正積極開發「數據空間」:這是在共享治理和隱私保證下,政府和公司可以交換 AI 就緒的合成數據產品的協作環境。聯邦學習和其他端到端加密技術使這種去中心化方法成為可能。合成數據作為一種補充性的推動力,允許組織貢獻其數據模式的合成表示,而無需暴露底層的敏感資訊。
這將數據風險管理從防禦姿態轉變為協作姿態,與日本創新導向的 AI 治理願景相契合。這種方法也挑戰了 AI 進步必須源自少數全球訓練模型的假設。相反,它指向了一個未來:許多主權、可互操作的 AI 系統是在開放、保護隱私的基礎上於本地構建的。
開始構建
數據牆是真實存在的。但正如 NTT DATA 的研究所證明的,克服它的工具現在已經開放且易於獲取。合成數據不是未來的能力——它是開發者今天就可以部署的現成解決方案,用於構建主權、具備文化背景的 AI 系統,且無需犧牲隱私或性能。
準備好開始了嗎?探索開源的 NeMo Data Designer 函式庫,或深入研究 Hugging Face 上的完整 Nemotron-Personas-Japan 數據集。若想進行更深入的技術探討,NTT DATA 的完整報告(提供日文版)涵蓋了方法論和實驗設計。
Nemotron-Personas-Japan 採用 CC BY 4.0 授權,可用於商業和非商業用途。
社群
· 註冊或登入以發表評論