Su propia voz

Cómo InterMIND pronuncia la traducción con la voz propia de cada participante en lugar de un narrador sintético.

Su propia voz

Cuando InterMIND traduce lo que usted dice para otro participante, este no escucha a un narrador robótico de texto a voz. Escucha una voz que es reconociblemente la suya —que conserva su timbre y su manera de hablar— pronunciando ahora las palabras en su idioma.

Esto funciona en ambos sentidos y para cada participante de forma independiente. En una reunión en la que cinco personas hablan cinco idiomas, cada una escucha a las otras cuatro en su propio idioma, y cada una de esas cuatro sigue sonando como ella misma.

Cómo suena

La mayoría de las herramientas de traducción en directo reemplazan al hablante por una única voz sintética genérica. El resultado es inteligible, pero plano: se pierde quién habla, el énfasis, la personalidad. InterMIND conserva la voz del hablante, de modo que una reunión traducida se siente como una conversación entre las personas que realmente participan en ella, y no como una cola de anuncios leídos por una máquina.

Cómo funciona

InterMIND utiliza una canalización en cascada, y el paso de voz es la última etapa:

Reconocimiento de voz: sus palabras se transcriben en su propio idioma, a medida que habla.
Segmentación: la transcripción se agrupa en fragmentos de oración estables (cláusulas) para que la traducción pueda comenzar antes de que termine la frase.
Traducción: cada fragmento se traduce progresivamente al idioma del oyente.
Síntesis de voz: cada fragmento traducido se pronuncia utilizando una muestra de su propia voz y se envía al oyente.

Mientras la reunión aún recopila suficiente material de su habla para modelar su voz (aproximadamente los primeros 5–10 segundos), la síntesis utiliza el fragmento de audio que corresponde a lo que usted acaba de decir en su idioma original. En cuanto hay una muestra suficientemente larga, pasa a usar esa muestra para todo lo posterior. En la práctica no se percibe el cambio: la traducción suena cada vez más como usted a medida que avanza la llamada. No será una imitación perfecta de su voz, pero es reconociblemente usted en lugar de un narrador genérico, y sigue mejorando a medida que el modelo le escucha más.

Idiomas

La traducción con su propia voz está disponible para los 21 idiomas de voz —el mismo conjunto que figura en Elegir idiomas—. No hay que activar nada por separado: cuando la traducción está activada, los participantes le escuchan automáticamente con su propia voz.

Privacidad

La muestra de voz utilizada para la síntesis es efímera. Existe únicamente durante la reunión en directo y no se almacena en ningún sitio: la API y el SDK de Mind que sustentan la sesión en tiempo real no conservan ningún dato una vez finalizada la sesión de la conferencia. Esta muestra de voz no tiene relación con las funciones de grabación de vídeo y voz de InterMIND, que son grabaciones explícitas e independientes que usted inicia de forma deliberada.

En la hoja de ruta: sincronización labial

Escuchar la traducción con su propia voz es la primera mitad de un objetivo mayor. El siguiente paso en el que estamos trabajando es la sincronización labial: reajustar los movimientos de la boca del hablante en cámara para que coincidan con el audio traducido, de modo que cada participante parezca estar hablando el idioma del otro. Combinado con la traducción con voz propia, el objetivo es una llamada en la que personas que no comparten ningún idioma común se vean y se escuchen como si cada una hablara el idioma de la otra de forma nativa.

Esto es un elemento de la hoja de ruta, no una función ya disponible: la traducción con voz propia descrita arriba sí está disponible hoy.

¿Quiere la imagen técnica completa? Consulte Hable con su propia voz — en un idioma que no habla en el blog.

Límites de uso

Límites de tiempo de traducción y cómo funcionan en InterMIND.

Reuniones y Conferencias

Todo sobre las reuniones de video en InterMIND — iniciar, unirse y gestionar conferencias.