语音转文字

模型说明

Echo 是我们的首款语音转文字（ASR）模型，也是目前全球最精准的转写模型。它专为应对真实世界音频的各种不可预测性而打造，能够转写 100 种语言，并具备单词级时间戳、说话人分离以及音频事件标注等功能——所有结果都以结构化的响应形式输出，方便无缝集成。我们已邀请 Soniox 对 Echo 模型在真实世界音频样本上进行多方位评测，结果表明在 60 个主要语言的跨环境测试中，Echo 在 WER 表现方面处于行业领先位置。

202年11月18日升级说明

极速识别：8秒音频仅需 50ms 即可完成识别

精准实时：完美适配实时语音对话与会议场景

2026年01月20日升级说明

在复杂语音、长音频和多说话人场景下显著降低错误率，整体转写结果比之前版本更准确、更稳定；

通过增强的上下文理解与关键术语识别能力，升级后的模型能更准确地识别品牌名、专有名词和行业术语；

支持更精确的词级时间戳和内置实体识别，使转写结果更适合后续分析、检索和合规处理；

可在单段音频中自动识别并转写多种语言，无需人工指定语言；

🎙 实时语音识别测试页面

不写代码的快速体验（适合运营 / 产品）
您可以通过浏览器麦克风实时体验 ASR 识别效果，直观查看识别准确率与延迟表现。
👉 前往测试页面

💻 Realtime ASR SDK（Python & Golang）

果你希望在自己的服务中集成 Realtime ASR，可以直接使用官方 SDK
该 SDK 可帮助开发者快速集成 MyVocal 的 ASR 实时识别能力，支持 WebSocket 连接、音频流上传与文本返回。
👉 前往 GitHub 下载 SDK

模型说明#

🎙 实时语音识别测试页面#

💻 Realtime ASR SDK（Python & Golang）#

模型说明

🎙 实时语音识别测试页面

💻 Realtime ASR SDK（Python & Golang）