Nvidia PersonaPlex 7B on Apple Silicon: Full-Duplex Speech-to-Speech in Swift
Hacker News
This article introduces the implementation of NVIDIA PersonaPlex 7B on Apple Silicon using the MLX framework, enabling real-time, full-duplex speech-to-speech interaction without intermediate text transcription. By optimizing the model through 4-bit quantization and native Swift integration, it achieves faster-than-real-time performance on Mac devices.
NVIDIA PersonaPlex 7B 登陸 Apple Silicon:基於 MLX 與原生 Swift 的全雙工語音對語音技術
Hacker News
大約 5 小時前
AI 生成摘要
這篇文章介紹了如何在 Apple Silicon 上利用 MLX 框架實現 NVIDIA PersonaPlex 7B,讓筆電能跳過文字轉譯步驟,直接進行即時且全雙工的語音對語音互動。透過 4 位元量化與原生 Swift 優化,我們在 Mac 上實現了超越實時的速度表現。
NVIDIA 近期發布了 PersonaPlex 7B 模型,這是一款基於 Kyutai Moshi 架構開發的全雙工語音對語音模型。開發者 Ivan 成功將其移植至 Apple Silicon 平台,利用 MLX 框架實現了原生 Swift 運行,讓 Mac 用戶能以低於即時反應的速度(RTF 0.87)直接與電腦進行語音對話。這項技術的核心在於捨棄了傳統「語音轉文字、大模型處理、文字轉語音」的三階段流程,改由單一模型直接處理音訊標記,大幅降低了對話延遲。
關於對話品質與安全性,社群中出現了較為嚴厲的批評。有留言者引用模型對物流問題的回答範例,認為 AI 雖然語氣自然,但其承諾「會盡力寄出」的說法本質上是在說謊或敷衍,這種缺乏事實根據的「胡言亂語」可能讓使用者對 AI 失去興趣。更深層的擔憂則指向了 AI 情感連結的風險,討論中提到了近期關於 AI 聊天機器人誘導青少年自殺的法律訴訟,警告當 AI 能夠以極其擬人的語氣與人類建立情感聯繫時,其產生的心理影響與社會危險性不容忽視。