Paza：為低資源語言推出自動語音識別基準測試與模型

Microsoft Research

24 天前

AI 生成摘要

微軟研究院發表 Paza，一個以人為本的語音管線，以及 PazaBench，這是第一個針對低資源語言的排行榜。它涵蓋了 39 種非洲語言和 52 個模型，並在真實環境中與社群共同測試。

概覽

微軟研究院發布 PazaBench 與 Paza 自動語音辨識模型，推動低資源語言的語音技術發展。
以人為本的低資源語言管線： Paza 專為社群打造並由社群測試，是一個端到端的持續管線，旨在提升歷史上代表性不足的語言地位，並使語音模型能在現實世界的低資源環境中使用。
首創的 ASR 排行榜，從非洲語言開始： PazaBench 是首個針對低資源語言的自動語音辨識（ASR）排行榜。首發涵蓋 39 種非洲語言與 51 個尖端模型，追蹤領先的公共與社群數據集中的三項關鍵指標。
以人為本的 Paza ASR 模型：這些微調後的 ASR 模型僅需極少數據，並與農民合作在日常行動裝置上進行現實世界測試，涵蓋六種肯亞語言：斯瓦希里語（Swahili）、多盧羅語（Dholuo）、卡倫金語（Kalenjin）、吉庫尤語（Kikuyu）、馬賽語（Maasai）和索馬利亞語（Somali）。

根據 2025 年，全球約有六分之一的人使用過生成式 AI 產品。然而，對於數十億人來說，語音互動的承諾仍未實現，儘管 AI 正變得日益多語言化，一個關鍵問題依然存在：這些模型是否真的適用於所有語言以及依賴這些語言的人們？ 這是我們在中首次面臨的挑戰——這是微軟研究院與的一項合作，非洲和印度的現場團隊專注於為農民構建可用的 AI 工具。

Gecko 揭示了語音系統在現實、低資源環境中失效的頻率——在這些環境中，許多語言無法被辨識，非西方口音也經常被誤解。然而，語音仍是全球主要的溝通媒介。對於肯亞、非洲及其他地區的社群而言，這種不匹配造成了連鎖挑戰：如果沒有代表其語言和文化的基礎數據，創新就會停滯，數位與 AI 鴻溝也會隨之擴大。

Paza 透過以人為本的語音模型管線解決了這個問題。透過 PazaBench，它利用公共和社群來源的數據對低資源語言進行基準測試；透過 Paza 模型，它微調語音模型以在低中資源語言中取得巨大進展，並由社群測試者在真實環境中使用真實設備進行評估。即將發布的指南手冊將補充這項工作，分享關於數據集創建、極簡數據微調方法以及評估考量的實務指導，引入一個持續的管線，使研究人員和從業者能夠構建並評估基於真實人類使用的系統。

Project Gecko 如何啟發 Paza 的設計

除了構建具成本效益且適應性強的 AI 系統外，Project Gecko 廣泛的實地工作凸顯了一個重要教訓：在低資源環境中構建可用的語音模型不僅是數據問題，也是設計與評估問題。 為了讓 AI 系統發揮作用，它們必須支援當地語言，支援透過語音、文字和影片進行免持互動，並以符合現實環境的格式提供資訊，即在低頻寬行動裝置、嘈雜環境以及不同識字水平的情況下皆可使用。

這些見解塑造了 Paza 的設計，其名稱源自斯瓦希里語短語 paza sauti，意為「擴音」或「提高你的聲音」。這個名字反映了我們的初衷：Paza 不僅僅是在現有系統中增加更多語言，而是與使用這些技術的社群合作，共同創造語音技術。在這一原則的指導下，Paza 將人類使用放在首位，進而推動模型的改進。

焦點：微軟研究院通訊

微軟研究院通訊

與微軟的研究社群保持聯繫。

開啟新分頁

PazaBench：首個低資源語言 ASR 排行榜

PazaBench 是首個專門針對低資源語言的自動語音辨識（ASR）排行榜。它首發涵蓋 39 種非洲語言，並對 52 個尖端 ASR 和語言模型進行基準測試，其中包括新發布的六種肯亞語言 Paza ASR 模型。該平台匯集了來自多種語音風格（包括對話、劇本朗讀、非劇本、廣播新聞和特定領域數據）的領先公共與社群數據集，為每種語言提供一個易於探索的平台。這使得研究人員、開發人員和產品團隊能夠輕鬆評估哪些模型在服務不足的語言和不同地區表現最佳，理解速度與準確度之間的權衡，同時識別差距所在。

PazaBench 追蹤三項核心指標：

字符錯誤率 (CER)：對於具有豐富詞形變化的語言（透過組合詞部來構建意義）至關重要，因此字符級別的錯誤會顯著影響語義。
詞錯誤率 (WER)：用於衡量單詞級別的轉錄準確度。
RTFx (逆實時因子)：衡量轉錄運行速度相對於實時音訊時長的比例。

除了分數，PazaBench 還標準化了評估流程，以優先考慮數據集缺口、識別表現不佳的語言，並凸顯在地化模型在何處優於覆蓋範圍更廣的 ASR 模型——為以非洲為中心的創新價值提供了早期證據。

^(若要為基準測試做出貢獻，請在排行榜上申請額外的語言評估。)

Paza ASR 模型：與肯亞語言社群共同打造

Paza ASR 模型由三個基於尖端模型架構微調而成的 ASR 模型組成。每個模型針對 斯瓦希里語（中等資源語言）以及五種低資源肯亞語言：多盧羅語、卡倫金語、吉庫尤語、馬賽語和索馬利亞語。這些模型是在公共和策劃的專有數據集上進行微調的。

微調這三個模型使我們能夠探索支持性方法，以實現共同目標：構建適用於當地環境的語音辨識系統（從六種肯亞語言開始），並透過彌合多語言和多模態影片問答的差距。

查看 MMCT 代理在現場的實際運作

吉庫尤語和斯瓦希里語兩個模型的早期版本已部署在行動裝置上，並直接與肯亞農民在現實環境中進行測試，使團隊能夠觀察模型在日常使用中的表現。農民針對準確度、可用性和相關性提供了即時回饋，指出了轉錄在何處崩潰、哪些錯誤最具干擾性，以及哪些改進能使模型在實務中更有幫助。這種回饋循環直接影響了後續的微調，確保模型的改進不僅由基準測試分數驅動，還由其預期服務社群的需求和期望驅動。

以下是 Paza 模型與目前三個尖端 ASR 模型的比較：

圖 1：多個尖端 ASR 模型（包括 Paza 模型）在肯亞語言中的字符錯誤率 (CER) 比較。較低的 CER 表示轉錄性能較好。

圖 2：多個尖端 ASR 模型（包括 Paza 模型）在肯亞語言中的詞錯誤率 (WER) 比較。較低的 WER 表示轉錄性能較好。

1) Paza-Phi-4-Multimodal-Instruct

微軟的是下一代小語言模型，旨在跨音訊、文字和視覺進行推理。透過 Paza，我們擴展了其音訊能力，將強大的多模態架構改編為適用於低資源非洲語言的高品質自動語音辨識（ASR）系統。

該模型在統一的多語言語音數據集上進行微調，專門針對這六種語言的轉錄進行了優化。模型保留了其底層 Transformer 架構和多模態能力，同時選擇性地僅微調音訊特定組件，從而實現強大的跨語言泛化能力。

如下圖結果所示，該模型在所有六種語言的轉錄品質上都帶來了持續的改進。

圖 3：基礎模型與微調後的 Paza 模型在六種語言中的字符錯誤率 (CER) 比較。較低的 CER 表示轉錄性能較好。

圖 4：基礎模型與微調後的 Paza 模型在六種語言中的詞錯誤率 (WER) 比較。較低的 WER 表示轉錄性能較好。

2) Paza-MMS-1B-All

此模型基於 Meta 的 mms-1b-all 模型進行微調，該模型採用大規模 Wav2Vec2.0 風格的編碼器，並配備輕量級的語言特定適配器（adapters），以實現高效的多語言專業化。在此版本中，六種語言的適配器分別在策劃的低資源數據集上獨立微調，在保持共享編碼器基本凍結的同時實現了針對性適配。

如下圖所示，該模型在提高轉錄準確度的同時，保持了模型強大的跨語言泛化能力。

圖 5：基礎模型與微調後的 Paza 模型在六種語言中的字符錯誤率 (CER) 比較。較低的 CER 表示轉錄性能較好。

圖 6：基礎模型與微調後的 Paza 模型在六種語言中的詞錯誤率 (WER) 比較。較低的 WER 表示轉錄性能較好。

3) Paza-Whisper-Large-v3-Turbo

此模型基於 OpenAI 的 whisper-large-v3-turbo 基礎模型進行微調。Whisper 是一種基於 Transformer 的編碼器-解碼器模型，提供強大的自動語音辨識（ASR）能力。該模型在上述六種語言的整個統一多語言 ASR 數據集上進行微調，以促進跨語言泛化。此外，還應用了額外的後處理步驟來解決已知的 Whisper 幻覺失效模式，提高了轉錄的可靠性。

如下所示，此版本在保留 Whisper 強健性的同時，實現了更高的轉錄準確度。

圖 7：基礎模型與微調後的 Paza 模型在六種語言中的字符錯誤率 (CER) 比較。較低的 CER 表示轉錄性能較好。

圖 8：基礎模型與微調後的 Paza 模型在六種語言中的詞錯誤率 (WER) 比較。較低的 WER 表示轉錄性能較好。

我們將走向何方

AI 正在重塑世界的溝通方式。與人共同設計，而不僅僅是為人設計，意味著要關注那些尚未得到良好服務的語言。我們計劃將 PazaBench 擴展到非洲語言之外，並在全球更多低資源語言中評估尖端 ASR 模型。Paza ASR 模型只是初步的一步；要真正支持小型和代表性不足的語言，需要專門的數據集、強大的在地合作夥伴關係和嚴格的評估。有意義的進展取決於與使用這些語言的社群進行持續合作，而負責任的擴張意味著優先考慮深度和品質，而非廣泛但淺薄的覆蓋。

隨著我們繼續這項工作，我們正將我們的方法提煉成即將發布的指南手冊，以幫助更廣泛的生態系統策劃數據集、負責任地進行微調，並在現實條件下評估模型。我們不會止步於語音——額外的指南手冊將指導團隊為多語言、多文化背景構建 AI 工具和應用程式，並為他們提供在不同社群部署的實務建議。

這些指南基於技術進步和社群驅動的設計，共同分享我們的經驗，幫助研究人員、工程師和設計師構建更多以人為本的 AI 系統。

致謝

以下研究人員在工作中發揮了不可或缺的作用：Najeeb Abdulhamid, Felermino Ali, Liz Ankrah, Kevin Chege, Ogbemi Ekwejunor-Etchie, Ignatius Ezeani, Tanuja Ganu, Antonis Krasakis, Mercy Kwambai, Samuel Maina, Muchai Mercy, Danlami Mohammed, Nick Mumero, Martin Mwiti, Stephanie Nyairo, Millicent Ochieng 與 Jacki O’Neill。

我們要感謝團隊——Rikin Gandhi, Alex Mwaura, Jacqueline Wang’ombe, Kevin Mugambi, Lorraine Nyambura, Juan Pablo, Nereah Okanga, Ramaskanda R.S, Vineet Singh, Nafhtari Wanjiku, Kista Ogot, Samuel Owinya 以及肯亞 Nyeri 和 Nandi 的社群評估員——感謝他們對這項工作的寶貴貢獻。

我們對、、、、、和的創作者、社群貢獻者和維護者表示感謝，他們的努力在推動非洲語言語音數據方面具有不可估量的價值。

開啟新分頁這篇文章首先出現在。

Paza: Introducing automatic speech recognition benchmarks and models for low resource languages

概覽

Project Gecko 如何啟發 Paza 的設計

微軟研究院通訊

PazaBench：首個低資源語言 ASR 排行榜

Paza ASR 模型：與肯亞語言社群共同打造

我們將走向何方

致謝