newsence
來源篩選

How Descript Enables Multilingual Video Dubbing at Scale

OpenAI

Descript uses OpenAI models to scale multilingual video dubbing, optimizing translations for both meaning and timing so dubbed speech sounds natural across languages.

newsence

Descript 如何實現大規模多語言影片配音

OpenAI
大約 14 小時前

AI 生成摘要

Descript 使用 OpenAI 推理模型來擴展多語言影片配音規模,針對意義與時長同步優化翻譯,使配音在不同語言中聽起來都能保持自然。

Descript 如何實現大規模多國語言影片配音

2026 年 3 月 6 日

Descript 如何實現大規模多國語言影片配音

透過使用 OpenAI 推理模型,Descript 成功實現了大型內容庫的自動化在地化,且不會損失時間軸精準度或原意。

Descript⁠(在新視窗中開啟)是一款 AI 原生影片編輯器,其核心理念非常簡單:如果你能編輯文字,你就應該能編輯影片。自 Descript 創立初期以來,AI 就驅動著產品的各個面向:逐字稿轉錄、編輯、音訊清理,以及日益複雜的創意工作流。他們多年來一直基於 OpenAI 進行開發,使用 Whisper 進行轉錄,並在其協作編輯工具 Underlord 中使用 GPT 系列模型。

翻譯很快就成為一個高影響力的使用案例。傳統上,翻譯影片既緩慢又昂貴,需要語言專家來管理專案、產出例行翻譯、處理品質控制並生成相應的音訊。大型語言模型(LLM)極大地壓縮了該工作流,使大規模的高品質翻譯成為可能。

字幕和配音都需要語義忠實度:翻譯必須保留原始含義。但「時長符合度」在兩者中扮演的角色不同。對於字幕來說,這是加分項;但對於配音來說,這至關重要,因為如果翻譯後的語音太長或太短,即使意思正確,聽起來也會很不自然。

為了瞭解決這個問題,Descript 使用 OpenAI 推理模型重新設計了其翻譯流程,在生成過程中(而非生成後)優化語義忠實度和時長符合度。在推出後的首個 30 天內,帶有配音的翻譯影片導出量增加了 15%,且時長符合度提高了 13 到 43 個百分點(視語言而定)。

「配音是 Descript 越來越受歡迎的使用案例,因此我們正在為希望批次翻譯和對齊口型(lip-sync)整個內容庫的公司開發相關方法,」執行長 Laura Burkhauser 表示。

配音功能遇到瓶頸之處

翻譯是 Descript 最早且需求最高的功能之一。他們從僅限字幕的翻譯開始,效果很好——但許多使用者希望更進一步,擁有目標語言的口說音訊(配音)。

然而,一個問題不斷浮現:配音後的音訊聽起來並不總是正確。「我們聽到排名第一的抱怨可能是,翻譯語言的說話節奏很不自然,」Descript AI 產品負責人 Aleks Mistratov 說道。

問題在於不同的語言表達同一個概念所需的時間不同。Descript 觀察到,例如平均而言,德文是比英文更「長」的語言。為了適應固定的影片片段,翻譯後的語音通常必須人為地加速或減速。「你最終會得到聽起來像花栗鼠或瞌睡巨人的聲音,」Mistratov 解釋道。

英文:

德文:

“Please review the safety guidelines before operating the machine.”

音節數:18

“Bitte überprüfen Sie die Sicherheitsrichtlinien, bevor Sie die Maschine bedienen.”

音節數:24(增加 40%)

在這種情況下,德文音訊要麼必須不自然地加速,要麼翻譯內容需要重新編寫以符合時間預算。

使用者面臨兩種選擇:手動逐段調整音訊時間,或重新編寫翻譯內容以使其符合時長。這兩種方法都需要深度的時間軸編輯,且通常需要具備目標語言近乎母語的流利度。這對創作者來說非常乏味,並成為將該功能擴展到大型企業在地化專案的阻礙。

針對時間而非僅針對含義優化翻譯

團隊對於如何讓配音奏效有一個明確的理論。系統不僅需要優化語義含義,還需要意識到時間限制。例如,在從英文翻譯成德文時,模型需要理解如何使用更少的詞彙或簡化概念,以便配音後的音訊保持自然。

早期的做法是先優化語義忠實度,然後嘗試在事後修正時間。翻譯內容通常在語義上是正確的,但經常無法滿足時長限制,整體品質仍不夠理想。

「我們進行了增量測試,甚至不生成任何內容,只是要求模型輸出一段文字中的音節數量,」Mistratov 說。「早期的模型根本不擅長這點。」

可靠的音節計數被證明是關鍵。如果模型無法一致地計算音節,它就無法可靠地對準特定的時長窗口。

GPT-5 系列模型帶來了早期模型所缺乏的推理一致性,特別是在音節計數和約束追蹤等任務上。有了這項改進,Descript 重新設計了其翻譯和配音流程。

首先,Descript 的系統會根據原始錄音中的句子邊界、自然停頓和說話模式將逐字稿切分成塊。每個區塊保持語義連貫性,但又足夠小,可以作為一個時間單位進行推理。

接著,模型會計算該區塊中的音節數量。利用特定語言的說話速率假設,系統會估計翻譯後的區塊應瞄準多少音節,以保持自然節奏(「時長符合度」)。提示詞(Prompt)要求模型同時優化時長符合度和含義保留。周圍的區塊會作為上下文傳入,以便模型在各個片段之間保持語義連貫。

團隊評估了多種配置,以平衡時長符合度、語義忠實度、延遲和成本。選定的方案在生產速度下提供了強大的約束遵循能力,實現了無需手動調整時間的大批量翻譯。其結果是一個將節奏視為一等變量(first-class variable)而非事後修正項的翻譯流程。

定義並衡量自然節奏

為了制定評估(evals)的驗收標準,團隊進行了聽力測試:他們生成翻譯後的音訊樣本,並以微小增量調整播放速度,要求使用者評分語音何時變得不自然。

「任何減速 10% 或加速 20% 的內容,通常聽起來仍然自然,」Mistratov 說。超過這個範圍,語音就會變得太失真。

早期系統在該指標上表現不佳。視語言而定,只有 40% 到 60% 的片段落在可接受的節奏窗口內。透過重新設計的流程,這一數字從 40%–60% 增加到 73% 至 83% 之間(視語言而定)。

團隊還使用另一個「模型作為評審」(model-as-judge)的方法評估語義忠實度,評分標準為 1(完全不同)到 5(語義等效)。對於配音,他們決定接受比僅限字幕翻譯更低的語義門檻,因為後者不需要考慮時間約束。即便在這種權衡下,仍有 85.5% 的片段在語義符合度上獲得了 4 分或 5 分(滿分 5 分)。

結果是一個能夠以可衡量的信心平衡兩個競爭約束(時間與含義)的系統。由於這兩項指標都是自動化的,Descript 能夠針對相同的基準持續評估新發佈的模型和提示詞變體。

開啟大規模影片在地化

隨著翻譯從單一影片擴展到大型內容庫,Descript 正在為翻譯的調整方式建立更多控制權,包括在需要時優先考慮更嚴格語義忠實度的能力。

Descript 內部的翻譯只是更廣泛的多模態系統中的一層。翻譯後的文字會饋送到語音生成系統,進而驅動口型同步和最終的影片渲染。

文字層面的改進使自然節奏成為可能,但整體體驗還取決於音訊模型保留語音語調、韻律和非語言特徵的效果。這正是團隊看到的下一個前沿領域。

「提升翻譯輸出的很大一部分將在於使流程更加多模態:在決定如何翻譯時,將音訊、影片和文字結合在一起,」Mistratov 說。「這應該能更好地保留語音的非語言特徵,如語調和重音,並保留更多原始的表達方式。」

對於 Descript 來說,更強大的推理模型使配音的複雜性變得可處理。透過跨越模型可以可靠平衡節奏與含義權衡的門檻,翻譯成為團隊可以系統性改進並大規模部署的功能。

加入工作新時代

延伸閱讀

oai Balyasny 1x1

API 2026 年 3 月 6 日

oai TrustBank English 1x1

API 2026 年 1 月 27 日

EF Ep18 1.1

API 2026 年 1 月 26 日