Ihre eigene Stimme

Wie InterMIND die Übersetzung in der eigenen Stimme jedes Teilnehmers wiedergibt – statt durch einen synthetischen Sprecher.

Ihre eigene Stimme

Wenn InterMIND Ihre Sprache für andere Teilnehmer übersetzt, hören diese keinen roboterhaften Text-to-Speech-Sprecher. Sie hören eine Stimme, die erkennbar Ihre eigene ist – mit Ihrem Timbre und Ihrer Sprechweise – nur dass sie nun die Worte in deren Sprache ausspricht.

Das funktioniert in beide Richtungen und für jeden Teilnehmer unabhängig. In einem Meeting, in dem fünf Personen fünf Sprachen sprechen, hört jede Person die anderen vier in ihrer eigenen Sprache – und jede dieser vier klingt dabei weiterhin wie sie selbst.

Wie es klingt

Die meisten Live-Übersetzungstools ersetzen den Sprecher durch eine einzige generische synthetische Stimme. Das Ergebnis ist verständlich, aber flach – wer spricht, Betonung, Persönlichkeit gehen verloren. InterMIND behält die Stimme des Sprechers bei, sodass sich ein übersetztes Meeting wie ein Gespräch zwischen den tatsächlich anwesenden Personen anfühlt und nicht wie eine maschinell vorgelesene Ansagen-Warteschlange.

So funktioniert es

InterMIND nutzt eine kaskadierte Pipeline, und der Stimm-Schritt ist die letzte Stufe:

  1. Spracherkennung – Ihre Worte werden in Ihrer eigenen Sprache transkribiert, während Sie sprechen.
  2. Segmentierung – das Transkript wird in stabile Satzfragmente (Teilsätze) gruppiert, sodass die Übersetzung beginnen kann, bevor Sie den Satz beendet haben.
  3. Übersetzung – jedes Fragment wird fortlaufend in die Sprache des Zuhörers übersetzt.
  4. Stimmsynthese – jedes übersetzte Fragment wird mit einer Probe Ihrer eigenen Stimme ausgesprochen und an den Zuhörer gesendet.

Solange das Meeting noch genug Ihrer Sprache sammelt, um Ihre Stimme zu modellieren (etwa die ersten 5–10 Sekunden), verwendet die Synthese das Audiofragment, das dem entspricht, was Sie gerade in Ihrer Ausgangssprache gesagt haben. Sobald eine ausreichend lange Probe vorliegt, wechselt das System darauf um und nutzt diese Probe für alles Weitere. In der Praxis bemerken Sie den Wechsel nicht – die Übersetzung klingt im Verlauf des Gesprächs zunehmend mehr nach Ihnen. Es wird keine perfekte Imitation Ihrer Stimme sein, aber erkennbar Sie statt eines generischen Sprechers – und es verbessert sich kontinuierlich, je mehr das Modell von Ihnen hört.

Sprachen

Die Übersetzung in der eigenen Stimme ist für alle 21 Sprachversionen verfügbar – dieselbe Auswahl, die in Sprachen wählen aufgeführt ist. Es muss nichts separat aktiviert werden: Sobald die Übersetzung aktiv ist, hören die Teilnehmer Sie automatisch in Ihrer eigenen Stimme.

Datenschutz

Die für die Synthese verwendete Stimmprobe ist flüchtig. Sie existiert nur für die Dauer des laufenden Meetings und wird nirgendwo gespeichert – die Mind-API und das SDK, die die Echtzeit-Sitzung antreiben, behalten keinerlei Daten, sobald die Konferenzsitzung endet. Diese Stimmprobe steht in keinem Zusammenhang mit den Aufzeichnungsfunktionen für Video und Audio in InterMIND, bei denen es sich um separate, bewusst gestartete Aufnahmen handelt.

Auf der Roadmap: Lip-Sync

Die Übersetzung in Ihrer eigenen Stimme zu hören ist die erste Hälfte eines größeren Ziels. Der nächste Schritt, an dem wir arbeiten, ist Lip-Sync – die Mundbewegungen des Sprechers im Kamerabild werden so neu getaktet, dass sie zur übersetzten Tonspur passen, sodass jeder Teilnehmer scheinbar in der Sprache des anderen spricht. Zusammen mit der Übersetzung in der eigenen Stimme ist das Ziel ein Gespräch, in dem Personen ohne gemeinsame Sprache einander sehen und hören, als spräche jeder die Sprache des anderen muttersprachlich.

Dies ist ein Roadmap-Vorhaben, noch kein ausgeliefertes Feature – die oben beschriebene Übersetzung in der eigenen Stimme ist heute bereits live.

Sie möchten das vollständige technische Bild? Lesen Sie In Ihrer eigenen Stimme sprechen – in einer Sprache, die Sie nicht beherrschen im Blog.