相比传统的 HTTP 请求模式,WebSocket 支持双向长连接。TTS 请求发出后,语音数据可以以流式(chunk)的方式即时返回,用户能够边接收边播放。
👉 在对话式、客服场景中,能显著降低首包延迟,提升“即说即听”的体验。
通过 WebSocket,可以将音频数据分片发送给客户端,而不必等全部生成完毕。
👉 用户可以先听到前半段内容,同时后台继续生成后续音频,非常适合长文本播报、实时互动等场景。
全双工通信
WebSocket 提供了 全双工通道,允许客户端和服务端随时发送消息。
👉 客户端可以动态打断、切换文本或调整参数(如语速、音色),而无需等待上一个请求完成,大大增强了交互灵活性。
可以在同一连接里进行多次 TTS 请求,减少连接管理成本。