Sprechen Sie in Ihrer eigenen Stimme – in einer Sprache, die Sie nicht beherrschen

Hier ist der Teil der Echtzeit-Übersetzung, den fast alle falsch machen und über den fast niemand spricht: die Stimme, die Sie hören.

Sie können hervorragende Spracherkennung und hervorragende Übersetzung haben – und trotzdem in einem Meeting landen, das sich anfühlt, als läse eine Maschine eine Liste vor. Denn der letzte Schritt – den übersetzten Text wieder in Klang zu verwandeln – ist die Stelle, an der die meisten Tools Sie still und leise durch einen einzigen generischen synthetischen Sprecher ersetzen. Acht Personen im Raum, eine Roboterstimme für alle. Sie verlieren, wer spricht, die Betonung, die Persönlichkeit. Verständlich, aber kein Gespräch.

InterMIND macht den letzten Schritt anders. Wenn Sie sprechen, hören die anderen Teilnehmer die Übersetzung in einer Stimme, die erkennbar Ihre ist – mit Ihrem Timbre und Ihrer Sprechweise –, die jetzt die Worte in ihrer Sprache sagt. Es ist noch keine perfekte Nachbildung; der Punkt ist, dass es Sie sind und nicht ein Standard-Sprecher, und es wird besser. Das funktioniert für jeden Teilnehmer, in beide Richtungen, gleichzeitig.

Dieser Beitrag ist das fehlende Kapitel zu Ein Blick in die vier Übersetzungspipelines, die InterMIND antreiben: Jener Text erklärte, wie aus Audio übersetztes Audio wird. Dieser hier handelt davon, wessen Stimme am anderen Ende herauskommt.

Der Standard, den alle ausliefern – und warum er flach klingt

Wenn Sie Live-Übersetzung in einer der großen Meeting-Plattformen genutzt haben, kennen Sie den Klang. Eine neutrale, gleichmäßig sprechende Stimme liest die Übersetzung vor. Es ist dieselbe Stimme, egal ob der Sprecher Ihr CEO ist, der eine Town-Hall eröffnet, oder ein Kollege, der einen Witz reißt. Die Technologie darunter ist Text-to-Speech mit einem festen Stimmenmodell, und die Designannahme lautet: Verständlichkeit reicht.

In einem echten Meeting reicht sie nicht. Die Hälfte dessen, was ein Meeting kommuniziert, ist wer etwas sagt und wie. Nehmen Sie die Stimme weg, und Sie haben aus einer Diskussion ein Transkript gemacht, das zufällig vorgelesen wird. Die Leute reagieren nicht mehr aufeinander, sondern warten, bis sie an der Reihe sind.

Was InterMIND stattdessen tut

Die Übersetzung läuft als kaskadierte Pipeline – drei spezialisierte Stufen in Folge, statt eines Modells, das alles auf einmal versucht. Die ersten beiden Stufen sind im Pipelines-Beitrag beschrieben; der Stimmenschritt ist der, um den es hier geht:

ASR – Spracherkennung. Ihre Worte werden in Ihrer eigenen Sprache transkribiert, in Ihrem Browser, während Sie sprechen. (Die lokale Ausführung spart einen Roundtrip und sorgt für die geringstmögliche Verzögerung, bevor die Übersetzung überhaupt beginnen kann.)
MT – Übersetzung. Das Transkript wird in stabile Satzfragmente – Teilsätze – gruppiert, damit die Übersetzung beginnen kann, bevor Sie den Satz beendet haben, und jedes Fragment wird fortlaufend in die Sprache des Zuhörers übersetzt.
Zero-Shot-TTS – Sprachsynthese. Jedes übersetzte Fragment wird anhand einer Probe Ihrer eigenen Stimme wieder ausgesprochen und an den Zuhörer gestreamt.

Es ist diese dritte Stufe – ASR → MT → Zero-Shot-TTS –, die den Effekt erzeugt. „Zero-Shot" bedeutet, dass das System weder eine vorab aufgezeichnete Registrierung noch eine Trainings-Session für Ihre Stimme benötigt. Es modelliert Ihre Stimme aus dem Audio des Meetings, an dem Sie ohnehin teilnehmen.

Die Aufwärmphase: Wie es so schnell nach Ihnen klingt

In „eine Probe Ihrer eigenen Stimme verwenden" steckt ein Henne-Ei-Problem. Ganz am Anfang eines Anrufs hat das System noch nicht genug von Ihnen gehört, um Ihre Stimme gut zu modellieren.

InterMIND löst das mit einer progressiven Aufwärmphase:

Für etwa die ersten 5–10 Sekunden, während noch nicht genug Ihrer Sprache gesammelt wurde, wird jedes übersetzte Fragment unter Verwendung des Audiofragments synthetisiert, das dem entspricht, was Sie gerade eben in Ihrer Quellsprache gesagt haben. Die Stimmgebung ist an Ihre echte, unmittelbare Sprache verankert.
Sobald eine ausreichend lange Probe vorliegt – an der 5–10-Sekunden-Marke –, fixiert sich das System darauf und nutzt sie, um alles Folgende zu vertonen.

In der Praxis hören Sie keinen Schalter umlegen. Die Übersetzung klingt mehr nach Ihnen, während das Gespräch in Fahrt kommt – kein perfektes Doppel Ihrer Stimme, aber klar Ihre und nicht die einer Maschine, und besser werdend, je mehr das Modell hört. Die Kombination aus progressiver Übersetzung (Teilsatz für Teilsatz statt Satz für Satz) und progressiver Vertonung ist das, was das Ganze innerhalb des Latenzbudgets hält und trotzdem menschlich klingen lässt.

Die Stimmprobe wird nirgendwo gespeichert

Das ist der Teil, den ein Security- oder Rechtsteam sofort anspricht, also hier klar und deutlich.

Die für die Synthese verwendete Stimmprobe ist flüchtig. Sie existiert ausschließlich für die laufende Konferenzsitzung, im Dienst der Vertonung der Übersetzung, und sie wird nirgendwo gespeichert. Die Mind-API und das SDK, die die Echtzeit-Sitzung betreiben, halten keine Daten vor – alles Temporäre verschwindet, wenn die Konferenzsitzung endet.

Es lohnt sich, präzise zu sein, was diese Probe nicht ist: Sie ist keine der Aufzeichnungsfunktionen von InterMIND. Das Aufzeichnen von Video und Audio eines Meetings ist eine separate, bewusste Handlung, die Sie gezielt vornehmen, mit eigenen Steuerelementen. Die Eigenstimm-Probe ist keine Aufzeichnung – sie ist eine vorübergehende Eingabe in den Sprachsynthesizer, die den Anruf nicht überlebt.

Das ist über reine Datenschutz-Hygiene hinaus von Bedeutung. „In Ihrer eigenen Stimme sprechen" ist genau die Art von Funktion, bei der es klingt, als müsse irgendwo ein Stimmabdruck gespeichert werden. Das ist nicht der Fall. Die ehrliche Version ist die bessere Geschichte: Ihre Stimme wird im Moment modelliert und ist weg, wenn Sie auflegen.

Warum sonst niemand das ausliefert

Es ist nicht so, dass Voice-Cloning ein Geheimnis wäre. Es ist nur so, dass es live, pro Teilnehmer, in beide Richtungen, unter einem Sekundenbudget, über 21 Sprachen hinweg, ohne irgendetwas zu speichern ein anderes Problem ist als das Klonen einer Stimme offline für einen Podcast.

Die großen Plattformen optimieren ihre Übersetzung auf Untertitel-Abdeckung und eine einzelne sichere Sprecherstimme – das ist der billige, robuste Standard im Maßstab. Die eigene Stimme jedes Sprechers zu erhalten bedeutet, dass die Synthesestufe jeden Teilnehmer unabhängig verfolgen und innerhalb desselben Latenzbudgets bleiben muss, in dem auch der Rest der Pipeline lebt. Wir haben die Voice-Engine selbst gebaut, auf unserer eigenen Infrastruktur, und genau deshalb können wir diesen Trade-off selbst gestalten. (Mehr dazu, warum die Engine unser eigener Code ist: Woraus ein InterMIND-Meeting gebaut ist.)

Wohin das führt: Lip-Sync

Ihre Stimme zu bewahren ist die eine Hälfte eines größeren Ziels. Die andere Hälfte ist Ihr Gesicht.

Im Moment hören Sie die andere Person in ihrer eigenen Stimme – doch wenn Sie vor der Kamera sind, bewegen sich ihre Lippen weiterhin zu den Worten, die sie tatsächlich gesagt hat, in einer Sprache, die Sie nicht lesen. Der nächste Schritt ist Lip-Sync: das Neutiming des Mundes des Sprechers auf das übersetzte Audio, sodass die Person auf Ihrem Bildschirm so erscheint, als würde sie Ihre Sprache sprechen.

Wenn Sie beides zusammenführen, kommt der eigentliche Sinn dieser Arbeit in den Fokus. Zwei Personen, die keine gemeinsame Sprache sprechen, sitzen sich in einem Videocall gegenüber und sehen und hören einander, als wäre jede ein Muttersprachler der Sprache der anderen – dieselbe Stimme, dasselbe Gesicht, kein Dolmetscher dazwischen, kein Roboter, der ein Skript abliest.

Um den Stand klarzustellen: Stimme ist heute live; Lip-Sync ist auf der Roadmap, nicht ausgeliefert. Wir nennen das Ziel, weil es der Grund ist, warum die Stimmarbeit wichtig ist – Eigenstimm-Übersetzung ist nicht das Feature, sie ist die erste Hälfte von „mit jedem in jeder Sprache sprechen, als man selbst".

Wo Sie es hören können

Eigenstimm-Übersetzung ist heute live, in allen 21 Sprachen – denselben Sprachen, die in der Dokumentation aufgeführt sind. Es gibt nichts separat einzuschalten: Wenn Übersetzung in einem Meeting aktiviert ist, hören die Teilnehmer einander automatisch in ihren eigenen Stimmen. Wir sind ehrlich, was den Stand betrifft: Heute ist die Stimme bereits erkennbar Sie, und an der Ähnlichkeit arbeiten wir aktiv weiter. Hören Sie selbst hinein und urteilen Sie.

Demo ausprobieren – führt die Live-Voice-Pipeline mit Ihrem Audio in einer der 21 Sprachen aus.
Die Qualitätszahlen ansehen – dieselbe Produktions-Pipeline, monatlich gegen FLORES-200 bewertet, mit der vollständigen Verteilung pro Sprachpaar veröffentlicht.
So funktioniert es, in der Dokumentation – die Kurzfassung dieses Beitrags.

Ein übersetztes Meeting sollte sich anfühlen, als würden die Menschen, die tatsächlich darin sind, miteinander sprechen. Ihre Stimme zu bewahren, ist der Weg dorthin.