Habla con tu propia voz — en un idioma que no hablas

Esta es la parte de la traducción en tiempo real que casi todo el mundo hace mal y de la que casi nadie habla: la voz que escuchas.

Puedes tener un excelente reconocimiento de voz y una excelente traducción, y aun así acabar con una reunión que suena como una máquina leyendo una lista. Porque el último paso — convertir el texto traducido de nuevo en sonido — es donde la mayoría de las herramientas te sustituyen silenciosamente a ti por un único narrador sintético genérico. Ocho personas en la sala, una voz de robot para todas. Pierdes quién está hablando, el énfasis, la personalidad. Inteligible, pero no una conversación.

InterMIND aborda el último paso de otra manera. Cuando hablas, los demás participantes escuchan la traducción con una voz que es reconociblemente tuya — con tu timbre y tu manera de hablar — diciendo ahora las palabras en su idioma. Todavía no es una imitación perfecta; lo importante es que eres tú y no un narrador estándar, y va mejorando. Funciona para cada participante, en ambas direcciones, al mismo tiempo.

Este artículo es el capítulo que faltaba de Por dentro de los cuatro pipelines de traducción que mueven InterMIND: aquel texto explicaba cómo el audio se convierte en audio traducido. Este trata de qué voz sale por el otro lado.

El estándar que todos lanzan, y por qué resulta plano

Si has usado traducción en directo en alguna de las grandes plataformas de reuniones, conoces ese sonido. Una voz neutra y de ritmo uniforme lee la traducción. Es la misma voz, hable tu CEO en una asamblea general o un colega contando un chiste. La tecnología por debajo es texto-a-voz con un único modelo de voz fijo, y el supuesto de diseño es que la inteligibilidad basta.

En una reunión real no basta. La mitad de lo que comunica una reunión es quién lo dice y cómo. Despoja la voz y habrás convertido una conversación en una transcripción que casualmente se pronuncia en voz alta. La gente deja de reaccionar entre sí y empieza a esperar su turno.

Lo que hace InterMIND en su lugar

La traducción se ejecuta como un pipeline en cascada — tres etapas especializadas en secuencia, en lugar de un único modelo intentando hacerlo todo. Las dos primeras etapas se cubren en el artículo sobre los pipelines; la etapa de voz es la que ocupa este artículo:

ASR — reconocimiento de voz. Tus palabras se transcriben en tu propio idioma, en tu navegador, a medida que hablas. (Ejecutarlo localmente ahorra un viaje de ida y vuelta y permite el menor retardo posible antes de que la traducción pueda siquiera empezar.)
MT — traducción. La transcripción se agrupa en fragmentos de frase estables — cláusulas — para que la traducción pueda comenzar antes de que termines la oración, y cada fragmento se traduce progresivamente al idioma del oyente.
TTS zero-shot — síntesis de voz. Cada fragmento traducido se pronuncia utilizando una muestra de tu propia voz y se transmite al oyente.

Es esa tercera etapa — ASR → MT → TTS zero-shot — la que produce el efecto. "Zero-shot" significa que el sistema no necesita una grabación de alta previa ni una sesión de entrenamiento para tu voz. Modela tu voz a partir del audio de la reunión en la que ya estás.

El calentamiento: cómo empieza a sonar como tú tan rápido

Hay un problema de la gallina y el huevo escondido en "usar una muestra de tu propia voz". Al principio de una llamada, el sistema aún no te ha escuchado lo suficiente como para modelar bien tu voz.

InterMIND resuelve esto con un calentamiento progresivo:

Durante los primeros 5–10 segundos aproximadamente, mientras todavía está recopilando suficiente muestra de tu habla, cada fragmento traducido se sintetiza usando el fragmento de audio que coincide con lo que acabas de decir en tu idioma de origen. El timbre se ancla en tu habla real e inmediata.
Una vez que hay una muestra suficientemente larga — esa marca de 5–10 segundos — el sistema la fija y la utiliza para pronunciar todo lo que viene después.

En la práctica no oyes ningún cambio brusco. La traducción suena más como tú a medida que avanza la conversación — no un doble perfecto de tu voz, pero claramente tuya y no de una máquina, y mejorando a medida que el modelo te escucha más. La combinación de traducción progresiva (cláusula a cláusula, no oración a oración) y voz progresiva es lo que mantiene el conjunto dentro del presupuesto de latencia sin dejar de sonar humano.

La muestra de voz nunca se almacena

Esta es la parte por la que un equipo de seguridad o jurídico pregunta de inmediato, así que aquí va con claridad.

La muestra de voz utilizada para la síntesis es efímera. Existe solo durante la sesión de conferencia en directo, al servicio de pronunciar la traducción, y no se almacena en ningún sitio. La API y el SDK de Mind que dan vida a la sesión en tiempo real no retienen datos: todo lo temporal desaparece cuando termina la sesión de conferencia.

Conviene ser preciso sobre lo que esta muestra no es: no es una de las funciones de grabación de InterMIND. Grabar el vídeo y el audio de una reunión es una acción independiente y deliberada que realizas a propósito, con sus propios controles. La muestra de propia voz no es una grabación: es una entrada transitoria al sintetizador de voz que nunca sobrevive a la llamada.

Esto importa más allá de la higiene de privacidad. "Habla con tu propia voz" es exactamente el tipo de función que suena como si tuviera que implicar almacenar una huella de voz en algún sitio. No la implica. La versión honesta es la mejor historia: tu voz se modela en el momento y desaparece cuando cuelgas.

Por qué nadie más lo ofrece

No es que la clonación de voz sea un secreto. Es que hacerlo en directo, por participante, en ambas direcciones, dentro de un presupuesto inferior a un segundo, a través de 21 idiomas, sin almacenar nada es un problema distinto al de clonar una voz fuera de línea para un pódcast.

Las grandes plataformas optimizan su traducción para la cobertura de subtítulos y una única voz narradora segura: ese es el valor predeterminado barato y robusto a escala. Conservar la propia voz de cada hablante exige que la etapa de síntesis siga a cada participante de forma independiente y se mantenga dentro del mismo presupuesto de latencia que rige el resto del pipeline. Hemos construido nosotros mismos el motor de voz, sobre nuestra propia infraestructura, y eso es lo que hace que esta decisión sea nuestra. (Más sobre por qué el motor es código propio: De qué está hecha una reunión de InterMIND.)

Hacia dónde va esto: sincronización labial

Conservar tu voz es una mitad de un objetivo más amplio. La otra mitad es tu cara.

Ahora mismo escuchas a la otra persona con su propia voz, pero si está delante de la cámara, sus labios todavía se mueven al ritmo de las palabras que realmente dijo — en un idioma que tú no lees. El siguiente paso es la sincronización labial: recronometrar la boca del hablante al audio traducido, de modo que en tu pantalla parezca que está hablando tu idioma.

Juntas las dos cosas y el sentido completo de este trabajo cobra forma. Dos personas que no comparten ningún idioma común se sientan frente a una videollamada y se ven y se escuchan como si cada una fuera hablante nativa del idioma de la otra — misma voz, misma cara, sin intérprete en medio, sin un robot leyendo un guion.

Para ser claros sobre el estado: la voz está activa hoy; la sincronización labial está en la hoja de ruta, no lanzada. Mencionamos el destino porque explica por qué importa el trabajo sobre la voz — la traducción con voz propia no es la función, es la primera mitad de "habla con cualquier persona, en cualquier idioma, siendo tú mismo".

Dónde escucharlo

La traducción con voz propia está activa hoy, en los 21 idiomas con voz — los mismos idiomas listados en la documentación. No hay nada que activar aparte: cuando la traducción está habilitada en una reunión, los participantes se escuchan automáticamente unos a otros con sus propias voces. Vamos a ser honestos sobre dónde estamos: hoy la voz ya es reconociblemente tuya, y el parecido es algo que estamos acercando activamente. Ve a escucharlo y juzga por ti mismo.

Prueba la demo — ejecuta el pipeline de voz en directo sobre tu audio en cualquiera de los 21 idiomas.
Consulta los datos de calidad — el mismo pipeline de producción, evaluado mensualmente contra FLORES-200, con la distribución completa publicada por par de idiomas.
Cómo funciona, en la documentación — la versión corta de este artículo.

Una reunión traducida debería sentirse como las personas que realmente están en ella hablando entre sí. Conservar tu voz es la forma de llegar ahí.