MiMo v2 TTS

Gere voz de alta qualidade a partir de texto usando a mais recente API MiMo v2 TTS.

Gerador de Texto para Voz

Esta ferramenta é alimentada pelo mais recente modelo MiMo v2 TTS (Text-to-Speech) lançado pela Xiaomi, capaz de converter texto em voz natural. Você pode configurar estilos de fala e inserir tags de áudio detalhadas.

⚠️ Aviso: Esta ferramenta foi feita rapidamente e pode ter erros. Se encontrar problemas, avise-nos!

🔗 Links Rápidos

🌟 Guia de Configuração

1. Aplicação e Segurança da API Key

Antes de usar esta ferramenta, você deve fornecer uma MIMO API Key válida.

  • Como solicitar: Visite o Xiaomi MiMo Console para se registrar e gerar sua chave exclusiva.
  • 🔒 Garantia de Privacidade: Todas as chamadas de API deste site são feitas diretamente do seu navegador para os servidores oficiais. NUNCA gravaremos, coletaremos ou faremos upload de sua API Key. Se você ainda estiver preocupado, pode excluir ou revocar a chave no console após testar.

2. Seleção de Voz (Vozes Integradas)

Você pode escolher uma voz predefinida no menu suspenso:

  • mimo_default: MiMo-Padrão
  • default_zh: MiMo-Voz Feminina Chinesa
  • default_en: MiMo-Voz Feminina Inglesa (Nota: A clonagem de voz atualmente não é suportada pela API)

3. Controle Geral do Estilo de Fala (Style)

Insira sua emoção ou dialeto desejado na caixa de entrada "Estilo". A ferramenta o anexará automaticamente como <style>Seu Estilo</style> ao conteúdo de destino. Você pode até combinar estilos separados por espaços!

Os estilos suportados incluem, mas não estão limitados a:

  • Velocidade de Fala: Acelerar / Desacelerar
  • Emoções: Feliz / Triste / Zangado
  • Papéis: Sun Wukong / Lin Daiyu
  • Mudança de Estilo: Sussurro / Voz aguda / Sotaque de Taiwan / Canto
  • Dialetos: Dialeto do Nordeste / Dialeto de Sichuan / Cantonês

Exemplos:

  • <style>Feliz</style>Amanhã é sexta-feira, tão feliz!
  • <style>Sussurro</style>Oh meu Deus, está tão frio hoje! Esse vento corta como uma faca!
  • (Nota: Para alcançar o melhor estilo de canto, você DEVE adicionar APENAS a tag de canto ao início).

4. Tags de Áudio Detalhadas

Através de Tags de Áudio inline, você pode exercer controle refinado para ajustar com precisão o tom e a emoção de partes específicas inserindo diretamente ofegadas, tosses ou assobios no texto. Exemplos:

  • Atchim! Aham. Eu—eu realmente [cough] acho que estou pegando um resfriado terrível [cough].
  • [respiração ofegante] Apenas... me dê... um segundo.
  • É tão estúpido! (soluçando) ele comeu a coisa toda em uma mordida!

5. Papéis: Contexto do Usuário vs Texto do Assistente

  • Texto do Assistente (Obrigatório): O texto de destino para a síntese de fala DEVE ser colocado em uma mensagem com a role de assistant.
  • Contexto do Usuário (Opcional): Fornece um contexto de fundo para o motor TTS adaptar o tom apropriado.