Fale com a sua própria voz — em um idioma que você não fala

Esta é a parte da tradução em tempo real que quase todo mundo erra, e sobre a qual quase ninguém fala: a voz que você ouve.

Você pode ter um excelente reconhecimento de fala e uma excelente tradução, e ainda assim acabar com uma reunião que parece uma máquina lendo uma lista. Porque a última etapa — transformar o texto traduzido de volta em som — é onde a maioria das ferramentas silenciosamente substitui você por um único narrador sintético genérico. Oito pessoas na sala, uma voz de robô para todas elas. Você perde quem está falando, a ênfase, a personalidade. Inteligível, mas não uma conversa.

A InterMIND faz a última etapa de outro jeito. Quando você fala, os outros participantes ouvem a tradução em uma voz que é reconhecidamente sua — carregando o seu timbre e o seu jeito de falar — agora dizendo as palavras no idioma deles. Ainda não é uma imitação perfeita; o ponto é que é você em vez de um narrador padrão, e está melhorando. Isso funciona para cada participante, nos dois sentidos, ao mesmo tempo.

Este post é o capítulo que faltava em Por dentro das quatro pipelines de tradução que rodam a InterMIND: aquele texto explicou como o áudio se torna áudio traduzido. Este é sobre de quem é a voz que sai do outro lado.

O padrão que todo mundo entrega, e por que ele é sem graça

Se você já usou tradução ao vivo em alguma das grandes plataformas de reunião, conhece o som. Uma voz neutra, com ritmo uniforme, lê a tradução. É a mesma voz quer o orador seja o seu CEO abrindo um town hall ou um colega contando uma piada. A tecnologia por trás é text-to-speech com um modelo de voz fixo, e a premissa de design é que inteligibilidade basta.

Em uma reunião real, não basta. Metade do que uma reunião comunica é quem está dizendo e como. Tire a voz e você transformou uma discussão em uma transcrição que por acaso está sendo falada em voz alta. As pessoas param de reagir umas às outras e começam a esperar a vez delas.

O que a InterMIND faz no lugar

A tradução roda como uma pipeline em cascata — três estágios especializados em sequência, em vez de um único modelo tentando fazer tudo. Os dois primeiros estágios estão cobertos no post sobre pipelines; a etapa da voz é a que este post aborda:

ASR — reconhecimento de fala. Suas palavras são transcritas no seu próprio idioma, no seu navegador, conforme você fala. (Rodar localmente economiza uma ida e volta e dá o menor atraso possível antes mesmo que a tradução comece.)
MT — tradução. A transcrição é agrupada em fragmentos de frase estáveis — cláusulas — para que a tradução possa começar antes de você terminar a frase, e cada fragmento é traduzido progressivamente para o idioma do ouvinte.
TTS zero-shot — síntese de voz. Cada fragmento traduzido é falado de volta usando uma amostra da sua própria voz, e transmitido ao ouvinte.

É esse terceiro estágio — ASR → MT → TTS zero-shot — que produz o efeito. "Zero-shot" significa que o sistema não precisa de uma gravação prévia de cadastro ou de uma sessão de treinamento para a sua voz. Ele modela a sua voz a partir do áudio da reunião em que você já está.

O aquecimento: como começa a soar como você tão rápido

Há um problema do ovo e da galinha escondido em "usar uma amostra da sua própria voz". No início da chamada, o sistema ainda não ouviu você o suficiente para modelar sua voz bem.

A InterMIND lida com isso através de um aquecimento progressivo:

Por cerca dos primeiros 5 a 10 segundos, enquanto ainda está coletando uma quantidade suficiente da sua fala, cada fragmento traduzido é sintetizado usando o fragmento de áudio que corresponde ao que você acabou de dizer no seu idioma de origem. A voz fica ancorada na sua fala real e imediata.
Quando há uma amostra longa o suficiente — aquela marca de 5 a 10 segundos — o sistema se fixa nela e a usa para vocalizar tudo depois disso.

Na prática, você não ouve uma chave virando. A tradução vai soando mais como você conforme a conversa pega ritmo — não uma cópia perfeita da sua voz, mas claramente sua em vez da de uma máquina, e melhorando à medida que o modelo ouve mais. A combinação de tradução progressiva (cláusula a cláusula, não frase a frase) e vocalização progressiva é o que mantém tudo isso dentro do orçamento de latência e ainda soando humano.

A amostra de voz nunca é armazenada

Essa é a parte que uma equipe de segurança ou jurídica pergunta imediatamente, então aqui está, direto.

A amostra de voz usada para a síntese é efêmera. Ela existe apenas durante a sessão de conferência ao vivo, a serviço de vocalizar a tradução, e não fica armazenada em lugar nenhum. A API e o SDK da Mind que sustentam a sessão em tempo real retêm nenhum dado — tudo o que é temporário morre quando a sessão de conferência termina.

Vale ser preciso sobre o que essa amostra não é: ela não é um dos recursos de gravação da InterMIND. Gravar o vídeo e o áudio de uma reunião é uma ação separada e deliberada que você toma de propósito, com controles próprios. A amostra da sua própria voz não é uma gravação — é uma entrada transitória para o sintetizador de fala, que não sobrevive à chamada.

Isso importa além da higiene de privacidade. "Fale com a sua própria voz" é exatamente o tipo de recurso que parece envolver guardar uma impressão vocal em algum lugar. Não envolve. A versão honesta é a melhor história: sua voz é modelada no momento e vai embora quando você desliga.

Por que mais ninguém entrega isso

Não é que clonagem de voz seja segredo. É que fazer isso ao vivo, por participante, nos dois sentidos, dentro de um orçamento de menos de um segundo, em 21 idiomas, sem armazenar nada é um problema diferente de clonar uma voz offline para um podcast.

As grandes plataformas otimizam a tradução delas para cobertura de legendas e uma única voz de narrador segura — esse é o padrão barato e robusto em escala. Manter a voz de cada orador significa que o estágio de síntese precisa acompanhar cada participante de forma independente e ficar dentro do mesmo orçamento de latência que o resto da pipeline. Nós construímos o motor de voz nós mesmos, na nossa própria infraestrutura, e é isso que torna essa decisão nossa. (Mais sobre por que o motor é nosso próprio código: Do que uma reunião da InterMIND é feita.)

Para onde isso está indo: sincronização labial

Manter a sua voz é metade de um objetivo maior. A outra metade é o seu rosto.

Hoje você ouve a outra pessoa na voz dela, mas se estiver na câmera, os lábios dela ainda se movem com as palavras que ela realmente disse — em um idioma que você não lê. O próximo passo é a sincronização labial: re-temporizar a boca do orador com o áudio traduzido, para que, na sua tela, ele pareça estar falando o seu idioma.

Junte as duas coisas e o ponto principal desse trabalho fica claro. Duas pessoas que não compartilham nenhum idioma comum se sentam em frente a uma chamada de vídeo e se veem e se ouvem como se cada uma fosse falante nativa do idioma da outra — mesma voz, mesmo rosto, sem intérprete no meio, sem robô lendo um roteiro.

Para deixar claro o status: voz está disponível hoje; sincronização labial está no roadmap, ainda não foi entregue. Estamos apontando o destino porque é por isso que o trabalho com voz importa — tradução com a própria voz não é o recurso, é a primeira metade de "falar com qualquer pessoa, em qualquer idioma, como você mesmo."

Onde ouvir

A tradução com a própria voz está disponível hoje, em todos os 21 idiomas com voz — os mesmos idiomas listados na documentação. Não há nada para ativar separadamente: quando a tradução está habilitada em uma reunião, os participantes ouvem automaticamente uns aos outros nas próprias vozes. Vamos ser honestos sobre onde isso está: hoje a voz já é reconhecidamente sua, e a semelhança é algo que estamos ativamente trabalhando para aproximar mais. Vá ouvir e julgue por si mesmo.

Experimente a demo — roda a pipeline de voz ao vivo com o seu áudio em qualquer um dos 21 idiomas.
Veja os números de qualidade — a mesma pipeline em produção, avaliada mensalmente contra o FLORES-200, com a distribuição completa publicada por par de idiomas.
Como funciona, na documentação — a versão curta deste post.

Uma reunião traduzida deve parecer com as pessoas que realmente estão nela conversando umas com as outras. Manter a sua voz é como se chega lá.