MiMo v2 TTS

Genere voz de alta calidad a partir de texto utilizando la última API MiMo v2 TTS.

Generador de Texto a Voz

Esta herramienta en línea funciona con el último modelo MiMo v2 TTS (Text-to-Speech) lanzado por Xiaomi, capaz de convertir automáticamente el texto en voz natural. Puede generar contenido de voz configurando estilos de voz e insertando etiquetas de audio detalladas.

⚠️ Aviso: Esta herramienta se construyó rápidamente, por lo que podría tener errores. Si tiene problemas o solicitudes, ¡no dude en decírnoslo!

🔗 Enlaces Rápidos

🌟 Guía de Configuración

1. Solicitud y Seguridad de la Clave API

Antes de utilizar esta herramienta, debe proporcionar una clave API de MIMO válida.

  • Cómo solicitar: Visite la Consola MiMo de Xiaomi para registrarse y generar su clave única.
  • 🔒 Garantía de Privacidad: Todas las llamadas de API desde este sitio web se realizan directamente desde su navegador a los servidores oficiales. NUNCA registraremos, recopilaremos ni cargaremos su clave API. Si aún le preocupa, puede eliminar o revocar la clave en la consola después de usar la herramienta.

2. Selección de Voz (Voces Integradas)

Puede elegir una voz preestablecida oficial en el menú desplegable:

  • mimo_default: MiMo-Predeterminado
  • default_zh: MiMo-Voz Femenina China
  • default_en: MiMo-Voz Femenina Inglesa (Nota: La API actualmente no admite la clonación de voz)

3. Control de Estilo de Voz General (Style)

Ingrese su emoción o dialecto deseado en el cuadro "Estilo". La herramienta agregará automáticamente la etiqueta <style>Su Estilo</style> al comienzo del contenido objetivo. ¡Incluso puede combinar estilos separados por espacios!

Los estilos compatibles incluyen, entre otros:

  • Ritmo de Voz: Acelerar / Disminuir
  • Emociones: Feliz / Triste / Enojado
  • Roles: Sun Wukong / Lin Daiyu
  • Cambio de Estilo: Susurro / Voz aguda / Acento taiwanés / Canto
  • Dialectos: Dialecto nororiental / Dialecto de Sichuan / Cantonés

Ejemplos:

  • <style>Feliz</style>¡Mañana es viernes, qué feliz estoy!
  • <style>Susurro</style>¡Dios mío, hace mucho frío hoy! ¡Ese viento aúlla como un cuchillo!
  • (Nota: Para lograr el mejor estilo de canto, debe agregar ÚNICAMENTE <style>唱歌</style> al comienzo).

4. Etiquetas de Audio Detalladas

Mediante las etiquetas de audio en línea, puede realizar un control detallado del tono, la emoción y el estilo de expresión insertando directamente jadeos, pausas o toses en el texto. Ejemplos:

  • ¡Achís! Ejem. Yo—realmente [cough] creo que me estoy enfermando de un terrible [cough] resfriado.
  • [respiración pesada] Solo... dame... un segundo.
  • ¡Es tan estúpido! (sollozando) ¡se lo comió todo de un bocado!

5. Roles: Contexto del Usuario vs Texto del Asistente

  • Texto del Asistente (Obligatorio): El texto objetivo de la síntesis de voz DEBE colocarse en un rol de mensaje de assistant. Este será el audio de voz generado.
  • Contexto del Usuario (Opcional): Proporciona un contexto de conversación en segundo plano para el motor TTS, lo que ayuda a adaptar el tono adecuado.