Parlez avec votre propre voix — dans une langue que vous ne parlez pas

Voici l'aspect de la traduction en temps réel que presque tout le monde rate, et dont presque personne ne parle : la voix que vous entendez.

Vous pouvez disposer d'une excellente reconnaissance vocale et d'une excellente traduction, et finir tout de même avec une réunion qui ressemble à une machine lisant une liste. Parce que la dernière étape — retransformer le texte traduit en son — est celle où la plupart des outils vous substituent discrètement vous par un narrateur synthétique générique et unique. Huit personnes dans la salle, une seule voix robotique pour toutes. Vous perdez qui parle, l'intonation, la personnalité. Intelligible, mais ce n'est pas une conversation.

InterMIND aborde cette dernière étape différemment. Quand vous parlez, les autres participants entendent la traduction dans une voix qui est reconnaissablement la vôtre — portant votre timbre et votre façon de parler — prononçant désormais les mots dans leur langue. Ce n'est pas encore une imitation parfaite ; l'essentiel est que c'est vous plutôt qu'un narrateur générique, et cela s'améliore. Cela fonctionne pour chaque participant, dans les deux sens, simultanément.

Cet article est le chapitre manquant de Au cœur des quatre pipelines de traduction qui font tourner InterMIND : ce dernier expliquait comment l'audio devient de l'audio traduit. Celui-ci traite de la voix qui ressort à l'autre bout.

Le choix par défaut que tout le monde livre, et pourquoi il sonne plat

Si vous avez utilisé la traduction en direct dans l'une des grandes plateformes de réunion, vous connaissez ce rendu sonore. Une voix neutre, au débit régulier, lit la traduction. C'est la même voix, que le locuteur soit votre PDG ouvrant une assemblée générale ou un collègue faisant une blague. La technologie sous-jacente est la synthèse vocale avec un modèle de voix unique et fixe, et l'hypothèse de conception est que l'intelligibilité suffit.

Dans une vraie réunion, ce n'est pas le cas. La moitié de ce qu'une réunion communique, c'est qui le dit et comment. Retirez la voix et vous avez transformé une discussion en transcription lue à voix haute. Les gens cessent de réagir les uns aux autres et se mettent à attendre leur tour.

Ce que fait InterMIND à la place

La traduction fonctionne comme un pipeline en cascade — trois étapes spécialisées en séquence plutôt qu'un seul modèle essayant de tout faire. Les deux premières étapes sont couvertes dans l'article sur les pipelines ; l'étape vocale est celle qui nous occupe ici :

ASR — reconnaissance vocale. Vos paroles sont transcrites dans votre propre langue, dans votre navigateur, au fur et à mesure que vous parlez. (L'exécuter localement évite un aller-retour et donne le délai le plus court possible avant même que la traduction puisse démarrer.)
MT — traduction. La transcription est regroupée en fragments de phrases stables — des propositions — pour que la traduction puisse commencer avant que vous ayez fini votre phrase, et chaque fragment est traduit progressivement dans la langue de l'auditeur.
TTS zero-shot — synthèse vocale. Chaque fragment traduit est restitué oralement en utilisant un échantillon de votre propre voix, et diffusé à l'auditeur.

C'est cette troisième étape — ASR → MT → TTS zero-shot — qui produit l'effet. « Zero-shot » signifie que le système n'a pas besoin d'un enrôlement préenregistré ni d'une session d'entraînement pour votre voix. Il modélise votre voix à partir de l'audio de la réunion à laquelle vous participez déjà.

La phase d'amorçage : comment ça se met à vous ressembler aussi vite

Il y a un problème de l'œuf et de la poule caché dans « utiliser un échantillon de votre propre voix ». Tout au début d'un appel, le système ne vous a pas encore suffisamment entendu pour bien modéliser votre voix.

InterMIND gère cela par une montée en charge progressive :

Pendant environ les 5 à 10 premières secondes, tant qu'il rassemble encore assez de votre parole, chaque fragment traduit est synthétisé en utilisant le fragment audio qui correspond à ce que vous venez de dire dans votre langue source. La sonorité est ancrée dans votre parole réelle et immédiate.
Une fois qu'il existe un échantillon suffisamment long — ce seuil de 5 à 10 secondes — le système s'y verrouille et l'utilise pour exprimer tout ce qui suit.

En pratique, vous n'entendez pas de bascule. La traduction se met à sonner davantage comme vous à mesure que la conversation avance — pas un double parfait de votre voix, mais clairement la vôtre plutôt que celle d'une machine, et qui s'améliore à mesure que le modèle vous entend davantage. La combinaison d'une traduction progressive (proposition par proposition, pas phrase par phrase) et d'un voicing progressif est ce qui maintient l'ensemble dans le budget de latence tout en restant humain à l'oreille.

L'échantillon vocal n'est jamais conservé

C'est la partie qu'une équipe sécurité ou juridique demande immédiatement, donc la voici clairement.

L'échantillon vocal utilisé pour la synthèse est éphémère. Il n'existe que pour la session de conférence en direct, au service de la voix de la traduction, et il n'est stocké nulle part. L'API et le SDK Mind qui font tourner la session en temps réel ne conservent aucune donnée — tout ce qui est temporaire disparaît à la fin de la session de conférence.

Il vaut la peine d'être précis sur ce que cet échantillon n'est pas : il ne s'agit pas de l'une des fonctions d'enregistrement d'InterMIND. Enregistrer la vidéo et l'audio d'une réunion est une action distincte et délibérée que vous entreprenez exprès, avec ses propres commandes. L'échantillon en propre voix n'est pas un enregistrement — c'est une entrée transitoire pour le synthétiseur vocal qui ne survit jamais à l'appel.

Cela compte au-delà de la simple hygiène en matière de vie privée. « Parlez avec votre propre voix » est précisément le genre de fonctionnalité qui semble devoir impliquer le stockage d'une empreinte vocale quelque part. Ce n'est pas le cas. La version honnête est aussi la meilleure histoire : votre voix est modélisée sur le moment et disparaît quand vous raccrochez.

Pourquoi personne d'autre ne livre cela

Ce n'est pas que le clonage de voix soit un secret. C'est que le faire en direct, par participant, dans les deux sens, sous un budget d'une seconde, à travers 21 langues, sans rien conserver est un problème différent du clonage d'une voix hors ligne pour un podcast.

Les grandes plateformes optimisent leur traduction pour la couverture des sous-titres et une seule voix narrative sûre — c'est le choix par défaut, économique et robuste à grande échelle. Conserver la voix propre de chaque locuteur signifie que l'étape de synthèse doit suivre chaque participant indépendamment et rester dans le même budget de latence que le reste du pipeline. Nous avons construit le moteur vocal nous-mêmes, sur notre propre infrastructure, ce qui rend ce compromis maîtrisable de notre côté. (Pour en savoir plus sur les raisons pour lesquelles le moteur est notre propre code : De quoi est faite une réunion InterMIND.)

La suite : la synchronisation labiale

Conserver votre voix est une moitié d'un objectif plus large. L'autre moitié, c'est votre visage.

Aujourd'hui, vous entendez l'autre personne dans sa propre voix, mais si elle est devant la caméra, ses lèvres bougent encore au rythme des mots qu'elle a réellement prononcés — dans une langue que vous ne lisez pas. La prochaine étape est la synchronisation labiale : recaler la bouche du locuteur sur l'audio traduit, de sorte qu'à l'écran il vous semble parler votre langue.

Mettez les deux ensemble et tout l'enjeu de ce travail apparaît clairement. Deux personnes qui ne partagent aucune langue commune s'installent face à face en visioconférence et se voient et s'entendent comme si chacune était locuteur natif de la langue de l'autre — même voix, même visage, pas d'interprète au milieu, pas de robot lisant un script.

Pour être clair sur le statut : la voix est disponible aujourd'hui ; la synchronisation labiale est sur la feuille de route, pas livrée. Nous signalons la destination parce que c'est ce qui donne du sens au travail sur la voix — la traduction en propre voix n'est pas la fonctionnalité, c'est la première moitié de « parler à n'importe qui, dans n'importe quelle langue, en restant soi-même ».

Où l'entendre

La traduction en propre voix est disponible aujourd'hui, dans les 21 langues vocales — les mêmes langues listées dans la documentation. Il n'y a rien à activer séparément : lorsque la traduction est activée dans une réunion, les participants s'entendent automatiquement dans leurs propres voix. Soyons honnêtes sur l'état actuel : aujourd'hui la voix est déjà reconnaissablement vous, et nous travaillons activement à rapprocher encore davantage la ressemblance. Allez écouter et jugez par vous-même.

Essayez la démo — exécute le pipeline vocal en direct sur votre audio dans n'importe laquelle des 21 langues.
Consultez les chiffres de qualité — le même pipeline de production, évalué chaque mois face à FLORES-200, avec la distribution complète publiée par paire de langues.
Le fonctionnement, dans la documentation — la version courte de cet article.

Une réunion traduite devrait donner l'impression que ce sont les personnes qui y participent réellement qui se parlent entre elles. Préserver votre voix, c'est ainsi qu'on y arrive.