MyVocal新增公用音色列表与调用说明
详情请访问:
https://my.feishu.cn/wiki/YMrZw7FWIiuSgskQS8tcihnKnph?from=from_copylink
MyVocal AI语音大模型API文档
语音转文字ASR
复制页面
MyVocal AI语音大模型API文档
文字转语音大模型
多语种语音合成
Voices
创建声音
获取声音列表
删除声音
Text-to-Speech
多线程全双工通道 (Mutiple-websocket)
单线程全双工通信(WebSocket)
流式文字转语音(Streaming TTS)
非流式文字转语音
查询接口
查询主key用量
Request_id客户端查询
发音人用量查询
子密钥管理
创建子 Key
查询子 Key 列表
获取单个子 Key 详情
更新子 Key
查询子 Key 用量
金融行业定制TTS模型
文字转语音 Skyblight
创建声音
获取声音列表
流式文字转语音(Streaming)
文字转语音(非流式返回)
删除声音
用量查询
全双工通信
websocket接入说明
语音转文字ASR
语音转文字
实时语音转文字(Realtime ASR)
语音转文字ASR
客户用量查询
企业客户声音定制服务
定制属于你的专属声音
语音转文字ASR
复制页面
语音转文字
模型说明
#
Echo 是我们的首款语音转文字(ASR)模型,也是目前全球最精准的转写模型。它专为应对真实世界音频的各种不可预测性而打造,能够
转写 100 种语言
,并具备单词级时间戳、说话人分离以及音频事件标注等功能——所有结果都以结构化的响应形式输出,方便无缝集成。我们已邀请 Soniox 对 Echo 模型在真实世界音频样本上进行多方位评测,结果表明在 60 个主要语言的跨环境测试中,Echo 在 WER 表现方面处于行业领先位置。
202年11月18日升级说明
极速识别:8秒音频仅需 50ms 即可完成识别
精准实时:完美适配实时语音对话与会议场景
2026年01月20日升级说明
在复 杂语音、长音频和多说话人场景下显著降低错误率,整体转写结果比之前版本更准确、更稳定;
通过增强的上下文理解与关键术语识别能力,升级后的模型能更准确地识别品牌名、专有名词和行业术语;
支持更精确的词级时间戳和内置实体识别,使转写结果更适合后续分析、检索和合规处理;
可在单段音频中自动识别并转写多种语言,无需人工指定语言;
🎙
实时语音识别测试页面
#
不写代码的快速体验(适合运营 / 产品)
您可以通过浏览器麦克风实时体验 ASR 识别效果,直观查看识别准确率与延迟表现。
👉
前往测试页面
💻
Realtime ASR SDK(Python & Golang)
#
果你希望在自己的服务中集成 Realtime ASR,可以直接使用官方 SDK
该 SDK 可帮助开发者快速集成 MyVocal 的 ASR 实时识别能力,支持 WebSocket 连接、音频流上传与文本返回。
👉
前往 GitHub 下载 SDK
上一页
websocket接入说明
下一页
实时语音转文字(Realtime ASR)