Warum Marketing zur Übersetzungsqualität kaputt ist — und was wir stattdessen veröffentlichen

Öffnen Sie die Website eines beliebigen Anbieters für Live-Übersetzung. Sie werden dieselben Arten von Zahlen sehen:

„200+ Sprachen"
„6.000+ Sprachpaare"
„Weltweit erste" / „Höchste Genauigkeit"
„99 % genau"

Versuchen Sie nun — auf einer dieser Anbieterseiten — herauszufinden, was diese Zahlen für ein Meeting bedeuten, das Sie gleich durchführen werden. Qualität pro Sprache. Reproduzierbare Methodik. Stichprobengröße. Verlauf der Werte über die Zeit. Ehrliche Offenlegung, wo das Modell schwach ist.

Sie werden es nicht finden. Nicht im Marketing-Text, und selten in der Dokumentation.

Das ist das Gleichgewicht in dieser Kategorie. Es existiert aus drei Gründen:

Die meisten Anbieter besitzen ihre Übersetzungs-Engine nicht. Sie routen über OpenAI, Google, DeepL, Microsoft oder eine Kombination davon. Qualitätsdaten pro Sprachpaar zu veröffentlichen, hieße, das Modell eines anderen zu benchmarken — daraus lässt sich kein Marketingwert ziehen.
Ehrliche Qualitätsdaten lassen sich schlecht auf ein Plakat drucken. Ein einzelner Wert ist verrauscht. Eine Verteilung ist nützlicher, aber schwerer zu komprimieren. Ein Trend der letzten sechs Monate ist noch nützlicher und noch schwerer darzustellen.
Die Beschaffung hat noch nicht nachgehakt. Käufer akzeptieren die Marketingzahlen, wie sie sind, und damit hält das Gleichgewicht.

Das Gleichgewicht wird nicht halten. Die nächste Käuferklasse — Pharma, Recht, Finanzen, Audit, öffentlicher Sektor — wird härtere Fragen stellen als „wie viele Sprachen". Wir haben /benchmark gebaut, weil wir denken, dass sie sich nicht auf das Wort eines Anbieters verlassen sollten.

Was Ihnen die Marketingzahlen nicht sagen

„200+ Sprachen" bedeutet, dass ein Anbieter ein Modell hat, das Text in 200 Sprachen ausgibt. Die Qualität über diese Sprachen hinweg reicht von produktionsreif für große Sprachpaare (EN↔DE, EN↔ES, EN↔FR) bis kaum brauchbar für ressourcenarme Sprachpaare. Ohne eine Aufschlüsselung pro Sprachpaar können Sie nicht erkennen, auf welcher Seite dieser Linie Ihr Meeting landen wird.

„6.000+ Sprachpaare" ist N × N-Kombinatorik auf 80 Quellsprachen. Zu sagen, dass Sie 6.000 Paare unterstützen, ist der einfache Teil. Zu sagen, dass ein bestimmtes Sprachpaar für eine CAPA-Prüfung, eine Vertragsverhandlung oder einen Earnings Call gut genug ist — das ist der Teil, der nicht in der Broschüre steht.

„99 % genau", ohne zu spezifizieren, was gemessen wurde, gegen welche Referenz, an welcher Stichprobe, von welchem Bewerter — ist inhaltsleer. Übersetzungsqualität hat keinen universellen Skalarwert. Sie hat eine Verteilung, die vom Sprachpaar, von der Inhaltsdomäne, von der Audioqualität (bei Sprache), vom Latenz-Budget und davon abhängt, was „gut genug" für den konkreten Anwendungsfall bedeutet.

Was ein Käufer wirklich wissen muss

Die Fragen, die in echten DPA-Reviews und Beschaffungsevaluationen auftauchen:

Qualität pro Sprachpaar — wie performt das konkret bei DE↔EN, EN↔AR, JA↔KO?
Stichprobengröße — auf wie vielen Durchläufen basiert Ihre angegebene Zahl? Zehn? Zehntausend?
Methodik — wer beurteilt die Übersetzungen, gegen welche Referenz, mit welchem Bewertungsschema?
Verteilung, nicht Durchschnitt — wie sehen die schlechtesten 10 % aus? Die besten 10 %? Der Median?
Drift über die Zeit — ist ein bestimmtes Sprachpaar besser oder schlechter geworden, seit Sie zuletzt eine Zahl veröffentlicht haben?
Was Sie nicht messen — was erfasst Ihr Benchmark explizit nicht?

Keine dieser Fragen ist unbeantwortbar. Sie stehen nur auf keiner Marketingseite.

Was wir veröffentlichen

/benchmark ist unsere Antwort. Die Methodik finden Sie unter /benchmark/methodology — geschrieben, bevor wir wussten, dass Sie das hier lesen würden.

Drei Dinge unterscheiden sie von den Normen der Kategorie.

1. Echter Traffic, keine kuratierte Auswahl

Jeder Wert im öffentlichen Benchmark stammt aus einem echten Testlauf auf /demo. Wir wählen keine Sprachpaare im Voraus aus, die gut performen. Dieselbe Pipeline, die die Demo eines Käufers bedient, ist die, die gemessen wird.

2. Der Bewerter wird benannt

Primär: google/gemini-2.5-flash. Fallback: anthropic/claude-sonnet-4-20250514. Beide über Vercel AI Gateway. Der Bewerter ist Teil der Methodik — namentlich offengelegt. Sollten wir den Bewerter in Zukunft ändern, tragen historische Zeilen die ursprüngliche Bewerter-Kennung; alte Werte werden niemals stillschweigend neu bewertet.

3. Die Verteilung ist die Datenbasis, nicht der Durchschnitt

Jede veröffentlichte Zeile zeigt Median, p10, p90, Minimum, Maximum und Stichprobengröße — nicht einen einzelnen Wert. Ein einzelner Wert für ein Sprachpaar ist Rauschen. Die Form der Verteilung ist das Signal.

Praktiken, die die Kategorie nicht übernommen hat

Niedrig bewertete Sprachpaare werden nicht versteckt. Der öffentliche Index ist auf ≥ 10 unterschiedliche IPs, ≥ 10 Durchläufe, Median ≥ 60 beschränkt — aber jeder kann direkt zu jedem Sprachpaar verlinken und die echten Zahlen sehen, einschließlich der Paare, die diesen Monat schlecht abschneiden.
Bekannte Probleme sind dokumentiert. Als der Chat-Test-Harness Anfang 2026 für einige Wochen kaputt war, wird dieser Zeitraum aus dem Index ausgeschlossen und schriftlich auf der Methodik-Seite vermerkt. Geschichte wird nicht stillschweigend umgeschrieben.
Was wir bewusst NICHT behaupten ist ein eigener Abschnitt auf der Methodik-Seite. Wir sagen, wo der LLM-Bewerter selbst unvollkommen ist. Wir sagen, was wir nicht messen (Latenz, Kosten, Nutzerzufriedenheit, ASR-seitige Fehler, bevor die Übersetzung überhaupt läuft). Wir legen offen, dass unsere eigenen automatisierten Smoke-Tests Teil des Traffics sind.

Ein Filter für die nächste Anbieter-Evaluation

Wenn Sie eine beliebige mehrsprachige Meeting-Plattform evaluieren — unsere oder eine andere — ist die Methodik die Seite, die es zu lesen lohnt. Die Zahlen selbst sind der einfache Teil.

Ein praktischer Filter für jeden Anbieter in dieser Kategorie:

Verlangen Sie Qualitätsdaten pro Sprachpaar, pro Monat, auf echtem Traffic. Kein kuratiertes Benchmark. Kein Aggregat.
Fragen Sie, wer ihr Bewerter ist, was sie explizit nicht messen und was sich in den letzten sechs Monaten verändert hat.
Fragen Sie, was passiert, wenn der Wert eines Sprachpaars fällt — informieren sie jemanden, oder beheben sie es im Stillen?

Hat der Anbieter alle drei Antworten schriftlich, dann nehmen Sie ihn ernst in die Evaluation. Wenn nicht, kaufen Sie Marketing — keine Übersetzungsqualität.

Probieren Sie es selbst aus

/demo — führt die produktive Übersetzungs-Pipeline auf Ihrem Audio aus, bewertet sie gegen denselben Bewerter, der auch das öffentliche Benchmark bewertet, und zeigt Ihnen das Ergebnis.
/benchmark — jedes veröffentlichte Sprachpaar, jeden Monat, mit der vollständigen Verteilung.
/benchmark/methodology — wie die Zahlen berechnet werden, was sie umfassen, was nicht.

Sie müssen uns für nichts davon beim Wort nehmen. Das ist der Punkt.