Support me on Ko-fi

MiMo v2 TTS 语音合成

使用小米最新发布的 MiMo v2 TTS 模型,快速将文本转换为高质量语音。支持配音、情感合成等细粒度控制。

在线文本转语音工具

此在线工具基于小米最新发布的 MiMo v2 TTS (Text-to-Speech) 语音合成模型,可将输入的文本自动转换为自然流畅的语音输出。支持配置发音风格及细粒度音频标签,生成表达丰富、生动的语音内容。

⚠️ 重要提示:本工具为了抢鲜快速上线,可能存在体验不健全的地方。如果遇到任何 Bug 或是功能需求,欢迎随时反馈提出!

🔗 快速链接

🌟 核心能力设置指南

1. API Key 获取与安全说明

使用本工具前,您需要提供一个有效的 MIMO API Key。

  • 获取方法:请前往 小米 MiMo 控制台 注册并生成您的专属 Key。
  • 🔒 隐私承诺:本网站所有 API 调用均直接由您的浏览器直连官方服务器发起,我们绝不会记录、收集或上传您的 API Key。如果您仍有疑虑,随时可以在使用完毕后去控制台删除或停用该 Key。

2. 声音与音色选择 (Voice)

你可以从下拉框中选择预置的音色。目前小米支持以下模型:

  • mimo_default:MiMo-默认
  • default_zh:MiMo-中文女声
  • default_en:MiMo-英文女声 (注:暂不支持音色克隆)

3. 发音风格控制与方言 (Style)

直接在工具界面的“发音风格”框中填入你想要的风格或方言!平台会自动帮您在前端拼装成 <style>风格</style> 标签放在生成的文本最开头(多个风格可用空格隔开)。这可以让语音更生动自然。

表内及额外支持的风格示例包括:

  • 语速控制:变快 / 变慢
  • 情绪变化:开心 / 悲伤 / 生气
  • 角色扮演:孙悟空 / 林黛玉
  • 风格变化:悄悄话 / 夹子音 / 台湾腔 / 唱歌
  • 方言:东北话 / 四川话 / 河南话 / 粤语

例:

  • <style>开心</style>明天就是周五了,真开心!
  • <style>东北话</style>哎呀妈呀,这天儿也忒冷了吧!你说这风,嗖嗖的,跟刀子似的,割脸啊!
  • (注:体验绝佳的唱歌风格,必须单独在文本最开头只加一个"唱歌"标签)

4. 细粒度音频标签微调 (Fine-grained Control)

除了整体风格,你还可以在**“要合成的助手文本”**各个段落中插入音频动作标签,来精准调节语气、由于加入呼吸声、停顿或咳嗽等! 例:

  • (紧张,深呼吸)呼……冷静,冷静。不就是一个面试吗……
  • (极其疲惫,有气无力)师傅……到地方了叫我一声……(长叹一口气)我先眯一会儿。
  • (寒冷导致的急促呼吸)呼——呼——这、这大兴安岭的雪……(咳嗽)简直能把人骨头冻透了……

5. 对话上下文机制 (User vs Assistant)

  • “要合成的助手文本” (Assistant):API 强制要求发音的目标文本必须且只能放在 role 为 assistant 的消息中。工具已限制主输入框对应此角色。
  • “用户上下文对话” (User):该选填框用于传递上一句对话设定,让生成的声音立刻带有合适的交流感和对应情感。建议使用。