Sua Própria Voz

Como o InterMIND fala a tradução na voz de cada participante em vez de um narrador sintético.

Sua Própria Voz

Quando o InterMIND traduz sua fala para outro participante, ele não ouve um narrador robótico de text-to-speech. Ele ouve uma voz que é reconhecidamente sua — carregando seu timbre e seu jeito de falar — agora dizendo as palavras no idioma dele.

Isso funciona nas duas direções e para cada participante de forma independente. Em uma reunião onde cinco pessoas falam cinco idiomas, cada pessoa ouve as outras quatro em seu próprio idioma, e cada uma dessas quatro ainda soa como ela mesma.

Como Soa

A maioria das ferramentas de tradução ao vivo substitui o falante por uma única voz sintética genérica. O resultado é inteligível, mas sem vida — você perde quem está falando, a ênfase, a personalidade. O InterMIND preserva a voz do falante, então uma reunião traduzida parece uma conversa entre as pessoas que realmente estão nela, não uma fila de avisos lidos por uma máquina.

Como Funciona

O InterMIND usa um pipeline em cascata, e a etapa de voz é o último estágio:

  1. Reconhecimento de fala — suas palavras são transcritas em seu próprio idioma, conforme você fala.
  2. Segmentação — a transcrição é agrupada em fragmentos de frase estáveis (orações) para que a tradução possa começar antes de você terminar a frase.
  3. Tradução — cada fragmento é traduzido progressivamente para o idioma do ouvinte.
  4. Síntese de voz — cada fragmento traduzido é falado de volta usando uma amostra da sua própria voz e enviado ao ouvinte.

Enquanto a reunião ainda está coletando fala suficiente para modelar sua voz (aproximadamente os primeiros 5–10 segundos), a síntese usa o fragmento de áudio que corresponde ao que você acabou de dizer no idioma de origem. Assim que houver uma amostra longa o bastante, ele passa a usar essa amostra para tudo a partir daí. Na prática, você não percebe a troca — a tradução vai soando mais como você à medida que a chamada avança. Não será uma imitação perfeita da sua voz, mas é reconhecidamente você, em vez de um narrador genérico — e continua melhorando à medida que o modelo ouve mais de você.

Idiomas

A tradução com sua própria voz está disponível para todos os 21 idiomas de voz — o mesmo conjunto listado em Escolhendo Idiomas. Não há nada para habilitar separadamente: quando a tradução está ativada, os participantes ouvem você automaticamente em sua própria voz.

Privacidade

A amostra de voz usada para a síntese é efêmera. Ela existe apenas durante a reunião ao vivo e não é armazenada em nenhum lugar — a Mind API e o SDK que sustentam a sessão em tempo real não mantêm nenhum dado depois que a sessão de conferência termina. Essa amostra de voz não tem relação com os recursos de gravação de vídeo e voz do InterMIND, que são gravações separadas e explícitas, iniciadas por você intencionalmente.

No Roadmap: Lip-Sync

Ouvir a tradução em sua própria voz é a primeira metade de um objetivo maior. O próximo passo no qual estamos trabalhando é o lip-sync — re-sincronizar a boca do falante na câmera para corresponder ao áudio traduzido, de modo que cada participante pareça estar falando o idioma do outro. Combinado com a tradução em voz própria, o objetivo é uma chamada em que pessoas que não compartilham um idioma comum se vejam e se ouçam como se cada uma falasse o idioma da outra nativamente.

Este é um item do roadmap, ainda não um recurso lançado — a tradução em voz própria descrita acima já está disponível hoje.

Quer o panorama técnico completo? Veja Fale com a sua própria voz — em um idioma que você não fala no blog.