Sua Própria Voz
Sua Própria Voz
Quando o InterMIND traduz sua fala para outro participante, ele não ouve um narrador robótico de text-to-speech. Ele ouve uma voz que é reconhecidamente sua — carregando seu timbre e seu jeito de falar — agora dizendo as palavras no idioma dele.
Isso funciona nas duas direções e para cada participante de forma independente. Em uma reunião onde cinco pessoas falam cinco idiomas, cada pessoa ouve as outras quatro em seu próprio idioma, e cada uma dessas quatro ainda soa como ela mesma.
Como Soa
A maioria das ferramentas de tradução ao vivo substitui o falante por uma única voz sintética genérica. O resultado é inteligível, mas sem vida — você perde quem está falando, a ênfase, a personalidade. O InterMIND preserva a voz do falante, então uma reunião traduzida parece uma conversa entre as pessoas que realmente estão nela, não uma fila de avisos lidos por uma máquina.
Como Funciona
O InterMIND usa um pipeline em cascata, e a etapa de voz é o último estágio:
- Reconhecimento de fala — suas palavras são transcritas em seu próprio idioma, conforme você fala.
- Segmentação — a transcrição é agrupada em fragmentos de frase estáveis (orações) para que a tradução possa começar antes de você terminar a frase.
- Tradução — cada fragmento é traduzido progressivamente para o idioma do ouvinte.
- Síntese de voz — cada fragmento traduzido é falado de volta usando uma amostra da sua própria voz e enviado ao ouvinte.
Enquanto a reunião ainda está coletando fala suficiente para modelar sua voz (aproximadamente os primeiros 5–10 segundos), a síntese usa o fragmento de áudio que corresponde ao que você acabou de dizer no idioma de origem. Assim que houver uma amostra longa o bastante, ele passa a usar essa amostra para tudo a partir daí. Na prática, você não percebe a troca — a tradução vai soando mais como você à medida que a chamada avança. Não será uma imitação perfeita da sua voz, mas é reconhecidamente você, em vez de um narrador genérico — e continua melhorando à medida que o modelo ouve mais de você.
Idiomas
A tradução com sua própria voz está disponível para todos os 21 idiomas de voz — o mesmo conjunto listado em Escolhendo Idiomas. Não há nada para habilitar separadamente: quando a tradução está ativada, os participantes ouvem você automaticamente em sua própria voz.
Privacidade
A amostra de voz usada para a síntese é efêmera. Ela existe apenas durante a reunião ao vivo e não é armazenada em nenhum lugar — a Mind API e o SDK que sustentam a sessão em tempo real não mantêm nenhum dado depois que a sessão de conferência termina. Essa amostra de voz não tem relação com os recursos de gravação de vídeo e voz do InterMIND, que são gravações separadas e explícitas, iniciadas por você intencionalmente.
No Roadmap: Lip-Sync
Ouvir a tradução em sua própria voz é a primeira metade de um objetivo maior. O próximo passo no qual estamos trabalhando é o lip-sync — re-sincronizar a boca do falante na câmera para corresponder ao áudio traduzido, de modo que cada participante pareça estar falando o idioma do outro. Combinado com a tradução em voz própria, o objetivo é uma chamada em que pessoas que não compartilham um idioma comum se vejam e se ouçam como se cada uma falasse o idioma da outra nativamente.
Este é um item do roadmap, ainda não um recurso lançado — a tradução em voz própria descrita acima já está disponível hoje.