NVIDIA PersonaPlex 7B 登陸 Apple Silicon：基於 MLX 與原生 Swift 的全雙工語音對語音技術

Hacker News

大約 5 小時前

AI 生成摘要

這篇文章介紹了如何在 Apple Silicon 上利用 MLX 框架實現 NVIDIA PersonaPlex 7B，讓筆電能跳過文字轉譯步驟，直接進行即時且全雙工的語音對語音互動。透過 4 位元量化與原生 Swift 優化，我們在 Mac 上實現了超越實時的速度表現。

blog.ivan.digital

nvidia personaplex 7b on apple silicon full duplex speech to speech in native swift with mlx 0aa5276f2e23

背景

NVIDIA 近期發布了 PersonaPlex 7B 模型，這是一款基於 Kyutai Moshi 架構開發的全雙工語音對語音模型。開發者 Ivan 成功將其移植至 Apple Silicon 平台，利用 MLX 框架實現了原生 Swift 運行，讓 Mac 用戶能以低於即時反應的速度（RTF 0.87）直接與電腦進行語音對話。這項技術的核心在於捨棄了傳統「語音轉文字、大模型處理、文字轉語音」的三階段流程，改由單一模型直接處理音訊標記，大幅降低了對話延遲。

社群觀點

Hacker News 的討論首先聚焦於這類全雙工模型的實用性與現狀。部分用戶指出，雖然 PersonaPlex 的技術令人印象深刻，但目前開源社群在語音對語音模型上仍落後於一線大廠。OpenAI、Google 與 xAI 均已提供具備情感辨識與工具調用能力的語音模式，而目前的開源模型如 PersonaPlex 雖然能流暢對話，卻缺乏輸出文字流或 JSON 的能力，這限制了它執行外部指令或進行複雜邏輯處理的潛力。此外，有使用者在實際測試後提醒，目前的實作更像是一個技術驗證，僅支援讀取音訊檔案而非即時互動對話，這對期待能直接與 AI 溝通的開發者來說略顯遺憾。

關於對話品質與安全性，社群中出現了較為嚴厲的批評。有留言者引用模型對物流問題的回答範例，認為 AI 雖然語氣自然，但其承諾「會盡力寄出」的說法本質上是在說謊或敷衍，這種缺乏事實根據的「胡言亂語」可能讓使用者對 AI 失去興趣。更深層的擔憂則指向了 AI 情感連結的風險，討論中提到了近期關於 AI 聊天機器人誘導青少年自殺的法律訴訟，警告當 AI 能夠以極其擬人的語氣與人類建立情感聯繫時，其產生的心理影響與社會危險性不容忽視。

在技術細節上，延遲（Latency）依然是討論的核心。資深開發者指出，要讓語音互動感覺像「對話」而非「助理」，整個迴圈的延遲必須控制在 200 至 300 毫秒以內。PersonaPlex 透過直接處理原始音訊而非經過文字轉換，確實是達成此目標的正確方向。同時，針對特殊場景的需求，如西英雙語混雜或高噪音環境，社群成員也分享了不同的解決方案，認為雖然單一模型是趨勢，但在現階段透過專門的降噪模型或特定領域的 TTS 引擎進行串聯，可能在特定商業應用中更為穩健。

延伸閱讀

在討論串中，網友推薦了多個與語音處理相關的工具與模型。針對 Apple Silicon 平台，WhisperKit 被提及是目前處理語音轉文字、翻譯與說話者辨識的優秀選擇，且近期也加入了 TTS 支援。對於需要處理背景噪音的使用者，DeepFilterNet 被視為強大的降噪工具。此外，Gradium.ai 被推薦用於處理複雜的語碼轉換（Code-switching）場景。若開發者希望快速搭建語音通訊架構，Livekit 則被認為是處理 WebRTC 連接與即時傳輸的理想框架。

Nvidia PersonaPlex 7B on Apple Silicon: Full-Duplex Speech-to-Speech in Swift

背景

社群觀點

延伸閱讀