newsence
來源篩選

Nvidia PersonaPlex 7B on Apple Silicon: Full-Duplex Speech-to-Speech in Swift

Hacker News

This article introduces the implementation of NVIDIA PersonaPlex 7B on Apple Silicon using the MLX framework, enabling real-time, full-duplex speech-to-speech interaction without intermediate text transcription. By optimizing the model through 4-bit quantization and native Swift integration, it achieves faster-than-real-time performance on Mac devices.

newsence

NVIDIA PersonaPlex 7B 登陸 Apple Silicon:基於 MLX 與原生 Swift 的全雙工語音對語音技術

Hacker News
大約 5 小時前

AI 生成摘要

這篇文章介紹了如何在 Apple Silicon 上利用 MLX 框架實現 NVIDIA PersonaPlex 7B,讓筆電能跳過文字轉譯步驟,直接進行即時且全雙工的語音對語音互動。透過 4 位元量化與原生 Swift 優化,我們在 Mac 上實現了超越實時的速度表現。

背景

NVIDIA 近期發布了 PersonaPlex 7B 模型,這是一款基於 Kyutai Moshi 架構開發的全雙工語音對語音模型。開發者 Ivan 成功將其移植至 Apple Silicon 平台,利用 MLX 框架實現了原生 Swift 運行,讓 Mac 用戶能以低於即時反應的速度(RTF 0.87)直接與電腦進行語音對話。這項技術的核心在於捨棄了傳統「語音轉文字、大模型處理、文字轉語音」的三階段流程,改由單一模型直接處理音訊標記,大幅降低了對話延遲。

社群觀點

Hacker News 的討論首先聚焦於這類全雙工模型的實用性與現狀。部分用戶指出,雖然 PersonaPlex 的技術令人印象深刻,但目前開源社群在語音對語音模型上仍落後於一線大廠。OpenAI、Google 與 xAI 均已提供具備情感辨識與工具調用能力的語音模式,而目前的開源模型如 PersonaPlex 雖然能流暢對話,卻缺乏輸出文字流或 JSON 的能力,這限制了它執行外部指令或進行複雜邏輯處理的潛力。此外,有使用者在實際測試後提醒,目前的實作更像是一個技術驗證,僅支援讀取音訊檔案而非即時互動對話,這對期待能直接與 AI 溝通的開發者來說略顯遺憾。

關於對話品質與安全性,社群中出現了較為嚴厲的批評。有留言者引用模型對物流問題的回答範例,認為 AI 雖然語氣自然,但其承諾「會盡力寄出」的說法本質上是在說謊或敷衍,這種缺乏事實根據的「胡言亂語」可能讓使用者對 AI 失去興趣。更深層的擔憂則指向了 AI 情感連結的風險,討論中提到了近期關於 AI 聊天機器人誘導青少年自殺的法律訴訟,警告當 AI 能夠以極其擬人的語氣與人類建立情感聯繫時,其產生的心理影響與社會危險性不容忽視。

在技術細節上,延遲(Latency)依然是討論的核心。資深開發者指出,要讓語音互動感覺像「對話」而非「助理」,整個迴圈的延遲必須控制在 200 至 300 毫秒以內。PersonaPlex 透過直接處理原始音訊而非經過文字轉換,確實是達成此目標的正確方向。同時,針對特殊場景的需求,如西英雙語混雜或高噪音環境,社群成員也分享了不同的解決方案,認為雖然單一模型是趨勢,但在現階段透過專門的降噪模型或特定領域的 TTS 引擎進行串聯,可能在特定商業應用中更為穩健。

延伸閱讀

在討論串中,網友推薦了多個與語音處理相關的工具與模型。針對 Apple Silicon 平台,WhisperKit 被提及是目前處理語音轉文字、翻譯與說話者辨識的優秀選擇,且近期也加入了 TTS 支援。對於需要處理背景噪音的使用者,DeepFilterNet 被視為強大的降噪工具。此外,Gradium.ai 被推薦用於處理複雜的語碼轉換(Code-switching)場景。若開發者希望快速搭建語音通訊架構,Livekit 則被認為是處理 WebRTC 連接與即時傳輸的理想框架。