Descript 如何實現大規模多語言影片配音

OpenAI

大約 14 小時前

AI 生成摘要

Descript 使用 OpenAI 推理模型來擴展多語言影片配音規模，針對意義與時長同步優化翻譯，使配音在不同語言中聽起來都能保持自然。

Descript 如何實現大規模多國語言影片配音

2026 年 3 月 6 日

Descript 如何實現大規模多國語言影片配音

透過使用 OpenAI 推理模型，Descript 成功實現了大型內容庫的自動化在地化，且不會損失時間軸精準度或原意。

Descript⁠（在新視窗中開啟）是一款 AI 原生影片編輯器，其核心理念非常簡單：如果你能編輯文字，你就應該能編輯影片。自 Descript 創立初期以來，AI 就驅動著產品的各個面向：逐字稿轉錄、編輯、音訊清理，以及日益複雜的創意工作流。他們多年來一直基於 OpenAI 進行開發，使用 Whisper 進行轉錄，並在其協作編輯工具 Underlord 中使用 GPT 系列模型。

翻譯很快就成為一個高影響力的使用案例。傳統上，翻譯影片既緩慢又昂貴，需要語言專家來管理專案、產出例行翻譯、處理品質控制並生成相應的音訊。大型語言模型（LLM）極大地壓縮了該工作流，使大規模的高品質翻譯成為可能。

字幕和配音都需要語義忠實度：翻譯必須保留原始含義。但「時長符合度」在兩者中扮演的角色不同。對於字幕來說，這是加分項；但對於配音來說，這至關重要，因為如果翻譯後的語音太長或太短，即使意思正確，聽起來也會很不自然。

為了瞭解決這個問題，Descript 使用 OpenAI 推理模型重新設計了其翻譯流程，在生成過程中（而非生成後）優化語義忠實度和時長符合度。在推出後的首個 30 天內，帶有配音的翻譯影片導出量增加了 15%，且時長符合度提高了 13 到 43 個百分點（視語言而定）。

「配音是 Descript 越來越受歡迎的使用案例，因此我們正在為希望批次翻譯和對齊口型（lip-sync）整個內容庫的公司開發相關方法，」執行長 Laura Burkhauser 表示。

配音功能遇到瓶頸之處

翻譯是 Descript 最早且需求最高的功能之一。他們從僅限字幕的翻譯開始，效果很好——但許多使用者希望更進一步，擁有目標語言的口說音訊（配音）。

然而，一個問題不斷浮現：配音後的音訊聽起來並不總是正確。「我們聽到排名第一的抱怨可能是，翻譯語言的說話節奏很不自然，」Descript AI 產品負責人 Aleks Mistratov 說道。

問題在於不同的語言表達同一個概念所需的時間不同。Descript 觀察到，例如平均而言，德文是比英文更「長」的語言。為了適應固定的影片片段，翻譯後的語音通常必須人為地加速或減速。「你最終會得到聽起來像花栗鼠或瞌睡巨人的聲音，」Mistratov 解釋道。

英文：

德文：

“Please review the safety guidelines before operating the machine.”

音節數：18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

音節數：24（增加 40%）

在這種情況下，德文音訊要麼必須不自然地加速，要麼翻譯內容需要重新編寫以符合時間預算。

使用者面臨兩種選擇：手動逐段調整音訊時間，或重新編寫翻譯內容以使其符合時長。這兩種方法都需要深度的時間軸編輯，且通常需要具備目標語言近乎母語的流利度。這對創作者來說非常乏味，並成為將該功能擴展到大型企業在地化專案的阻礙。

針對時間而非僅針對含義優化翻譯

團隊對於如何讓配音奏效有一個明確的理論。系統不僅需要優化語義含義，還需要意識到時間限制。例如，在從英文翻譯成德文時，模型需要理解如何使用更少的詞彙或簡化概念，以便配音後的音訊保持自然。

早期的做法是先優化語義忠實度，然後嘗試在事後修正時間。翻譯內容通常在語義上是正確的，但經常無法滿足時長限制，整體品質仍不夠理想。

「我們進行了增量測試，甚至不生成任何內容，只是要求模型輸出一段文字中的音節數量，」Mistratov 說。「早期的模型根本不擅長這點。」

可靠的音節計數被證明是關鍵。如果模型無法一致地計算音節，它就無法可靠地對準特定的時長窗口。

GPT-5 系列模型帶來了早期模型所缺乏的推理一致性，特別是在音節計數和約束追蹤等任務上。有了這項改進，Descript 重新設計了其翻譯和配音流程。

首先，Descript 的系統會根據原始錄音中的句子邊界、自然停頓和說話模式將逐字稿切分成塊。每個區塊保持語義連貫性，但又足夠小，可以作為一個時間單位進行推理。

接著，模型會計算該區塊中的音節數量。利用特定語言的說話速率假設，系統會估計翻譯後的區塊應瞄準多少音節，以保持自然節奏（「時長符合度」）。提示詞（Prompt）要求模型同時優化時長符合度和含義保留。周圍的區塊會作為上下文傳入，以便模型在各個片段之間保持語義連貫。

團隊評估了多種配置，以平衡時長符合度、語義忠實度、延遲和成本。選定的方案在生產速度下提供了強大的約束遵循能力，實現了無需手動調整時間的大批量翻譯。其結果是一個將節奏視為一等變量（first-class variable）而非事後修正項的翻譯流程。

定義並衡量自然節奏

為了制定評估（evals）的驗收標準，團隊進行了聽力測試：他們生成翻譯後的音訊樣本，並以微小增量調整播放速度，要求使用者評分語音何時變得不自然。

「任何減速 10% 或加速 20% 的內容，通常聽起來仍然自然，」Mistratov 說。超過這個範圍，語音就會變得太失真。

早期系統在該指標上表現不佳。視語言而定，只有 40% 到 60% 的片段落在可接受的節奏窗口內。透過重新設計的流程，這一數字從 40%–60% 增加到 73% 至 83% 之間（視語言而定）。

團隊還使用另一個「模型作為評審」（model-as-judge）的方法評估語義忠實度，評分標準為 1（完全不同）到 5（語義等效）。對於配音，他們決定接受比僅限字幕翻譯更低的語義門檻，因為後者不需要考慮時間約束。即便在這種權衡下，仍有 85.5% 的片段在語義符合度上獲得了 4 分或 5 分（滿分 5 分）。

結果是一個能夠以可衡量的信心平衡兩個競爭約束（時間與含義）的系統。由於這兩項指標都是自動化的，Descript 能夠針對相同的基準持續評估新發佈的模型和提示詞變體。

開啟大規模影片在地化

隨著翻譯從單一影片擴展到大型內容庫，Descript 正在為翻譯的調整方式建立更多控制權，包括在需要時優先考慮更嚴格語義忠實度的能力。

Descript 內部的翻譯只是更廣泛的多模態系統中的一層。翻譯後的文字會饋送到語音生成系統，進而驅動口型同步和最終的影片渲染。

文字層面的改進使自然節奏成為可能，但整體體驗還取決於音訊模型保留語音語調、韻律和非語言特徵的效果。這正是團隊看到的下一個前沿領域。

「提升翻譯輸出的很大一部分將在於使流程更加多模態：在決定如何翻譯時，將音訊、影片和文字結合在一起，」Mistratov 說。「這應該能更好地保留語音的非語言特徵，如語調和重音，並保留更多原始的表達方式。」

對於 Descript 來說，更強大的推理模型使配音的複雜性變得可處理。透過跨越模型可以可靠平衡節奏與含義權衡的門檻，翻譯成為團隊可以系統性改進並大規模部署的功能。

加入工作新時代

延伸閱讀

API 2026 年 3 月 6 日

API 2026 年 1 月 27 日

API 2026 年 1 月 26 日

How Descript Enables Multilingual Video Dubbing at Scale

Descript 如何實現大規模多國語言影片配音

Descript 如何實現大規模多國語言影片配音

配音功能遇到瓶頸之處

針對時間而非僅針對含義優化翻譯

定義並衡量自然節奏

開啟大規模影片在地化

加入工作新時代

延伸閱讀