[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-post-fr-/own-voice-translation":3},{"page":4,"surround":340},{"id":5,"title":6,"authors":7,"badge":10,"body":11,"date":329,"description":330,"extension":331,"heroOrder":332,"image":333,"meta":334,"navigation":335,"path":336,"seo":337,"stem":338,"__hash__":339},"blog_fr/blog/own-voice-translation.md","Parlez avec votre propre voix — dans une langue que vous ne parlez pas",[8],{"name":9},"The Mind.com Team","Architecture",{"type":12,"value":13,"toc":317},"minimark",[14,18,26,34,44,55,58,63,66,77,81,92,122,129,133,140,143,162,173,177,180,195,206,213,217,224,234,238,245,256,259,266,270,285,314],[15,16,6],"h1",{"id":17},"parlez-avec-votre-propre-voix-dans-une-langue-que-vous-ne-parlez-pas",[19,20,21,22],"p",{},"Voici l'aspect de la traduction en temps réel que presque tout le monde rate, et dont presque personne ne parle : ",[23,24,25],"strong",{},"la voix que vous entendez.",[19,27,28,29,33],{},"Vous pouvez disposer d'une excellente reconnaissance vocale et d'une excellente traduction, et finir tout de même avec une réunion qui ressemble à une machine lisant une liste. Parce que la dernière étape — retransformer le texte traduit en son — est celle où la plupart des outils vous substituent discrètement ",[30,31,32],"em",{},"vous"," par un narrateur synthétique générique et unique. Huit personnes dans la salle, une seule voix robotique pour toutes. Vous perdez qui parle, l'intonation, la personnalité. Intelligible, mais ce n'est pas une conversation.",[19,35,36,37,40,41,43],{},"InterMIND aborde cette dernière étape différemment. Quand vous parlez, les autres participants entendent la traduction dans une voix qui est ",[23,38,39],{},"reconnaissablement la vôtre"," — portant votre timbre et votre façon de parler — prononçant désormais les mots dans leur langue. Ce n'est pas encore une imitation parfaite ; l'essentiel est que c'est ",[30,42,32],{}," plutôt qu'un narrateur générique, et cela s'améliore. Cela fonctionne pour chaque participant, dans les deux sens, simultanément.",[19,45,46,47,54],{},"Cet article est le chapitre manquant de ",[48,49,51],"a",{"href":50},"/blog/inside-the-translation-pipelines",[30,52,53],{},"Au cœur des quatre pipelines de traduction qui font tourner InterMIND"," : ce dernier expliquait comment l'audio devient de l'audio traduit. Celui-ci traite de la voix qui ressort à l'autre bout.",[56,57],"hr",{},[59,60,62],"h2",{"id":61},"le-choix-par-défaut-que-tout-le-monde-livre-et-pourquoi-il-sonne-plat","Le choix par défaut que tout le monde livre, et pourquoi il sonne plat",[19,64,65],{},"Si vous avez utilisé la traduction en direct dans l'une des grandes plateformes de réunion, vous connaissez ce rendu sonore. Une voix neutre, au débit régulier, lit la traduction. C'est la même voix, que le locuteur soit votre PDG ouvrant une assemblée générale ou un collègue faisant une blague. La technologie sous-jacente est la synthèse vocale avec un modèle de voix unique et fixe, et l'hypothèse de conception est que l'intelligibilité suffit.",[19,67,68,69,72,73,76],{},"Dans une vraie réunion, ce n'est pas le cas. La moitié de ce qu'une réunion communique, c'est ",[30,70,71],{},"qui"," le dit et ",[30,74,75],{},"comment",". Retirez la voix et vous avez transformé une discussion en transcription lue à voix haute. Les gens cessent de réagir les uns aux autres et se mettent à attendre leur tour.",[59,78,80],{"id":79},"ce-que-fait-intermind-à-la-place","Ce que fait InterMIND à la place",[19,82,83,84,87,88,91],{},"La traduction fonctionne comme un ",[23,85,86],{},"pipeline en cascade"," — trois étapes spécialisées en séquence plutôt qu'un seul modèle essayant de tout faire. Les deux premières étapes sont couvertes dans ",[48,89,90],{"href":50},"l'article sur les pipelines"," ; l'étape vocale est celle qui nous occupe ici :",[93,94,95,102,112],"ol",{},[96,97,98,101],"li",{},[23,99,100],{},"ASR — reconnaissance vocale."," Vos paroles sont transcrites dans votre propre langue, dans votre navigateur, au fur et à mesure que vous parlez. (L'exécuter localement évite un aller-retour et donne le délai le plus court possible avant même que la traduction puisse démarrer.)",[96,103,104,107,108,111],{},[23,105,106],{},"MT — traduction."," La transcription est regroupée en fragments de phrases stables — des ",[30,109,110],{},"propositions"," — pour que la traduction puisse commencer avant que vous ayez fini votre phrase, et chaque fragment est traduit progressivement dans la langue de l'auditeur.",[96,113,114,117,118,121],{},[23,115,116],{},"TTS zero-shot — synthèse vocale."," Chaque fragment traduit est restitué oralement ",[23,119,120],{},"en utilisant un échantillon de votre propre voix",", et diffusé à l'auditeur.",[19,123,124,125,128],{},"C'est cette troisième étape — ASR → MT → ",[23,126,127],{},"TTS zero-shot"," — qui produit l'effet. « Zero-shot » signifie que le système n'a pas besoin d'un enrôlement préenregistré ni d'une session d'entraînement pour votre voix. Il modélise votre voix à partir de l'audio de la réunion à laquelle vous participez déjà.",[59,130,132],{"id":131},"la-phase-damorçage-comment-ça-se-met-à-vous-ressembler-aussi-vite","La phase d'amorçage : comment ça se met à vous ressembler aussi vite",[19,134,135,136,139],{},"Il y a un problème de l'œuf et de la poule caché dans « utiliser un échantillon de votre propre voix ». Tout au début d'un appel, le système ne vous a pas encore ",[30,137,138],{},"suffisamment entendu"," pour bien modéliser votre voix.",[19,141,142],{},"InterMIND gère cela par une montée en charge progressive :",[144,145,146,156],"ul",{},[96,147,148,151,152,155],{},[23,149,150],{},"Pendant environ les 5 à 10 premières secondes",", tant qu'il rassemble encore assez de votre parole, chaque fragment traduit est synthétisé en utilisant le fragment audio qui correspond à ce que vous ",[30,153,154],{},"venez de dire"," dans votre langue source. La sonorité est ancrée dans votre parole réelle et immédiate.",[96,157,158,161],{},[23,159,160],{},"Une fois qu'il existe un échantillon suffisamment long"," — ce seuil de 5 à 10 secondes — le système s'y verrouille et l'utilise pour exprimer tout ce qui suit.",[19,163,164,165,168,169,172],{},"En pratique, vous n'entendez pas de bascule. La traduction se met à sonner davantage comme vous à mesure que la conversation avance — pas un double parfait de votre voix, mais clairement la vôtre plutôt que celle d'une machine, et qui s'améliore à mesure que le modèle vous entend davantage. La combinaison d'une traduction ",[30,166,167],{},"progressive"," (proposition par proposition, pas phrase par phrase) et d'un voicing ",[30,170,171],{},"progressif"," est ce qui maintient l'ensemble dans le budget de latence tout en restant humain à l'oreille.",[59,174,176],{"id":175},"léchantillon-vocal-nest-jamais-conservé","L'échantillon vocal n'est jamais conservé",[19,178,179],{},"C'est la partie qu'une équipe sécurité ou juridique demande immédiatement, donc la voici clairement.",[19,181,182,183,186,187,190,191,194],{},"L'échantillon vocal utilisé pour la synthèse est ",[23,184,185],{},"éphémère",". Il n'existe que pour la session de conférence en direct, au service de la voix de la traduction, et il n'est ",[23,188,189],{},"stocké nulle part",". L'API et le SDK Mind qui font tourner la session en temps réel ne conservent ",[23,192,193],{},"aucune donnée"," — tout ce qui est temporaire disparaît à la fin de la session de conférence.",[19,196,197,198,201,202,205],{},"Il vaut la peine d'être précis sur ce que cet échantillon ",[30,199,200],{},"n'est pas"," : il ne s'agit pas de l'une des fonctions d'",[23,203,204],{},"enregistrement"," d'InterMIND. Enregistrer la vidéo et l'audio d'une réunion est une action distincte et délibérée que vous entreprenez exprès, avec ses propres commandes. L'échantillon en propre voix n'est pas un enregistrement — c'est une entrée transitoire pour le synthétiseur vocal qui ne survit jamais à l'appel.",[19,207,208,209,212],{},"Cela compte au-delà de la simple hygiène en matière de vie privée. « Parlez avec votre propre voix » est précisément le genre de fonctionnalité qui ",[30,210,211],{},"semble"," devoir impliquer le stockage d'une empreinte vocale quelque part. Ce n'est pas le cas. La version honnête est aussi la meilleure histoire : votre voix est modélisée sur le moment et disparaît quand vous raccrochez.",[59,214,216],{"id":215},"pourquoi-personne-dautre-ne-livre-cela","Pourquoi personne d'autre ne livre cela",[19,218,219,220,223],{},"Ce n'est pas que le clonage de voix soit un secret. C'est que le faire ",[23,221,222],{},"en direct, par participant, dans les deux sens, sous un budget d'une seconde, à travers 21 langues, sans rien conserver"," est un problème différent du clonage d'une voix hors ligne pour un podcast.",[19,225,226,227,233],{},"Les grandes plateformes optimisent leur traduction pour la couverture des sous-titres et une seule voix narrative sûre — c'est le choix par défaut, économique et robuste à grande échelle. Conserver la voix propre de chaque locuteur signifie que l'étape de synthèse doit suivre chaque participant indépendamment et rester dans le même budget de latence que le reste du pipeline. Nous avons construit le moteur vocal nous-mêmes, sur notre propre infrastructure, ce qui rend ce compromis maîtrisable de notre côté. (Pour en savoir plus sur les raisons pour lesquelles le moteur est notre propre code : ",[48,228,230],{"href":229},"/blog/what-one-intermind-meeting-is-built-from",[30,231,232],{},"De quoi est faite une réunion InterMIND",".)",[59,235,237],{"id":236},"la-suite-la-synchronisation-labiale","La suite : la synchronisation labiale",[19,239,240,241,244],{},"Conserver votre voix est une moitié d'un objectif plus large. L'autre moitié, c'est votre ",[23,242,243],{},"visage",".",[19,246,247,248,251,252,255],{},"Aujourd'hui, vous entendez l'autre personne dans sa propre voix, mais si elle est devant la caméra, ses lèvres bougent encore au rythme des mots qu'elle a réellement prononcés — dans une langue que vous ne lisez pas. La prochaine étape est la ",[23,249,250],{},"synchronisation labiale"," : recaler la bouche du locuteur sur l'audio traduit, de sorte qu'à l'écran il vous semble parler ",[30,253,254],{},"votre"," langue.",[19,257,258],{},"Mettez les deux ensemble et tout l'enjeu de ce travail apparaît clairement. Deux personnes qui ne partagent aucune langue commune s'installent face à face en visioconférence et se voient et s'entendent comme si chacune était locuteur natif de la langue de l'autre — même voix, même visage, pas d'interprète au milieu, pas de robot lisant un script.",[19,260,261,262,265],{},"Pour être clair sur le statut : ",[23,263,264],{},"la voix est disponible aujourd'hui ; la synchronisation labiale est sur la feuille de route, pas livrée."," Nous signalons la destination parce que c'est ce qui donne du sens au travail sur la voix — la traduction en propre voix n'est pas la fonctionnalité, c'est la première moitié de « parler à n'importe qui, dans n'importe quelle langue, en restant soi-même ».",[59,267,269],{"id":268},"où-lentendre","Où l'entendre",[19,271,272,273,276,277,281,282,284],{},"La traduction en propre voix est ",[23,274,275],{},"disponible aujourd'hui, dans les 21 langues vocales"," — les mêmes langues listées dans la ",[48,278,280],{"href":279},"/docs/translation/languages","documentation",". Il n'y a rien à activer séparément : lorsque la traduction est activée dans une réunion, les participants s'entendent automatiquement dans leurs propres voix. Soyons honnêtes sur l'état actuel : aujourd'hui la voix est déjà reconnaissablement ",[30,283,32],{},", et nous travaillons activement à rapprocher encore davantage la ressemblance. Allez écouter et jugez par vous-même.",[144,286,287,296,305],{},[96,288,289,295],{},[23,290,291],{},[48,292,294],{"href":293},"/demo","Essayez la démo"," — exécute le pipeline vocal en direct sur votre audio dans n'importe laquelle des 21 langues.",[96,297,298,304],{},[23,299,300],{},[48,301,303],{"href":302},"/benchmark","Consultez les chiffres de qualité"," — le même pipeline de production, évalué chaque mois face à FLORES-200, avec la distribution complète publiée par paire de langues.",[96,306,307,313],{},[23,308,309],{},[48,310,312],{"href":311},"/docs/translation/own-voice","Le fonctionnement, dans la documentation"," — la version courte de cet article.",[19,315,316],{},"Une réunion traduite devrait donner l'impression que ce sont les personnes qui y participent réellement qui se parlent entre elles. Préserver votre voix, c'est ainsi qu'on y arrive.",{"title":318,"searchDepth":319,"depth":320,"links":321},"",2,3,[322,323,324,325,326,327,328],{"id":61,"depth":319,"text":62},{"id":79,"depth":319,"text":80},{"id":131,"depth":319,"text":132},{"id":175,"depth":319,"text":176},{"id":215,"depth":319,"text":216},{"id":236,"depth":319,"text":237},{"id":268,"depth":319,"text":269},"2026-06-13","La plupart des outils de traduction en direct vous remplacent par un narrateur robotique unique. InterMIND préserve votre voix : chaque participant entend la traduction dans la voix du locuteur d'origine. Voici comment la cascade y parvient — et pourquoi l'échantillon vocal n'est jamais conservé.","md",null,"/blog/own-voice-translation.svg",{},true,"/blog/own-voice-translation",{"title":6,"description":330},"blog/own-voice-translation","66kPMW02UOZ_ICrr8IOkHm54v0s44CpFcSF2tIoyq0k",[332,341],{"title":342,"path":343,"stem":344,"description":345,"children":-1},"Traduction en direct dans Microsoft Teams : comment ça marche, et où ça s'arrête","/blog/teams-live-translation","blog/teams-live-translation","Teams peut traduire une réunion en direct de trois manières — sous-titres traduits, l'agent IA Interpreter et les canaux d'interprétation humaine. Ce que chacune exige, ce qu'elle coûte et les limites qui déterminent si elle convient à votre réunion."]