Show HN: I built a sub-500ms latency voice agent from scratch
Hacker News
The author shares the technical journey of building a high-performance voice agent orchestration layer that achieves 400ms end-to-end latency by optimizing STT, LLM, and TTS pipelines. The project demonstrates that custom orchestration can outperform off-the-shelf platforms through strategic model selection and geographic optimization.
本文作者 Nick Tikhonov 分享了他如何花費約一天的時間與少量 API 成本,從零開始構建一個延遲低於 500 毫秒的語音代理程式。他指出語音互動的核心挑戰不在於單一模型的強大與否,而是在於複雜的編排邏輯,特別是處理「輪替對話」時的狀態切換,最終他透過優化串流管線與地理位置佈署,成功在性能上超越了 Vapi 等現成的商業解決方案。
關於技術實現,社群對於語音活動檢測(VAD)有深入的辯論。部分專家認為單純依賴 VAD 容易出錯,特別是在噪音環境或人類語氣停頓時,更理想的方案是採用具備「端點檢測」能力的模型,這類模型經過專門訓練,能更精準地判斷使用者何時真正結束發言。此外,針對回音消除與環境干擾,討論中也提醒在非電信系統(如 Twilio 之外)的環境下,如何處理代理程式「自言自語」導致的誤觸發,仍是實務上的棘手挑戰。