1. 文字转语音大模型
MyVocal AI语音大模型API文档
  • 文字转语音大模型
    • 多语种语音合成
      • Voices
        • 创建声音
        • 获取声音列表
        • 删除声音
      • Text-to-Speech
        • 多线程全双工通道 (Mutiple-websocket)
        • 单线程全双工通信(WebSocket)
        • 流式文字转语音(Streaming TTS)
        • 非流式文字转语音
      • 查询接口
        • 查询主key用量
        • Request_id客户端查询
        • 发音人用量查询
      • 子密钥管理
        • 创建子 Key
        • 查询子 Key 列表
        • 获取单个子 Key 详情
        • 更新子 Key
        • 查询子 Key 用量
  • 金融行业定制TTS模型
    • 文字转语音 Skyblight
      • 创建声音
      • 获取声音列表
      • 流式文字转语音(Streaming)
      • 文字转语音(非流式返回)
      • 删除声音
      • 用量查询
    • 全双工通信
      • websocket接入说明
  • 语音转文字ASR
    • 语音转文字
      • 实时语音转文字(Realtime ASR)
      • 语音转文字ASR
      • 客户用量查询
  • 企业客户声音定制服务
    • 定制属于你的专属声音
  1. 文字转语音大模型

MyVocal AI 文字转语音模型说明

模型简介#

Multilingual_v2#

这是我们最先进的情感感知语音合成模型,能够在多语言环境中生成自然、生动、富有情感的语音。它不仅具备深度的上下文理解能力,还能在不同场景中保持一致的音色与个性特征,让声音更真实、更有感染力。支持37种语言输出。

Tubro#

专为实时交互与对话式 AI 打造的超低延迟语音模型,响应速度可低至 100毫秒以内。在确保高速响应的同时,依然保持自然流畅的语音表现与一致的说话人特征,并支持 40 种语言,非常适合应用于智能助手、客服对话、游戏语音等需要高互动性的场景。
数字|日期|货币相关处理方案

Myvocal_v3 [最新]#

MyVocal全新的V3模型支持100种输出语言,在延续 V2 强大语音合成能力的基础上,进一步强化了对非语言声音的表现力,支持生成如笑声、咳嗽声、呼吸声等自然人类音效。同时,通过提示词即可精准控制情绪,仅需输入【生气】、【激动】、【呐喊】等关键词,系统便可合成带有相应情感的语音输出,大幅提升语音的感染力与真实感。该能力特别适用于对情绪表达和声音细节要求较高的场景,如游戏配音、影视配音、虚拟角色演绎等应用场景,为内容创作带来更丰富的声音表现力。
V3模型详情说明 点击查看
Skyblight 金融行业定制模型
模型是一款专为 金融行业 优化的 TTS(文字转语音)模型,针对 品牌名称、人名、货币金额、电话号码、邮政编码 等在金融场景中常见的信息具有更高识别与朗读准确性,并保持高速响应。流式返回约50ms延时。
查看详细说明
下一页
Voices
Built with