Warum das Marketing für Übersetzungsqualität fehlerhaft ist – und was wir stattdessen veröffentlichen

Jeder Übersetzungsanbieter veröffentlicht Sprachanzahlen. Keiner veröffentlicht nachweisbare Qualität pro Sprachpaar im realen Datenverkehr. Warum diese Lücke bei Ihrer nächsten Beschaffungsbewertung wichtig ist – und was wir stattdessen veröffentlichen.

Warum das Marketing für Übersetzungsqualität fehlerhaft ist – und was wir stattdessen veröffentlichen

Öffnen Sie die Website eines beliebigen Anbieters für Live-Übersetzung. Sie werden immer die gleichen Arten von Zahlen sehen:

"200+ Sprachen"
"6.000+ Sprachpaare"
"Weltweit erster" / "Höchste Genauigkeit"
"99% genau"

Versuchen Sie nun – auf einer dieser Anbieterseiten – herauszufinden, was diese Zahlen für ein Meeting bedeuten, das Sie leiten möchten. Qualität pro Sprache. Reproduzierbare Methodik. Stichprobengröße. Punktzahl im Zeitverlauf. Ehrliche Offenlegung, wo das Modell Schwächen aufweist.

Sie werden es nicht finden. Weder in den Marketingtexten noch selten in der Dokumentation.

Dies ist das Gleichgewicht in dieser Kategorie. Es existiert aus drei Gründen:

Die meisten Anbieter besitzen ihre Übersetzungs-Engine nicht selbst. Sie leiten Anfragen über OpenAI, Google, DeepL, Microsoft oder eine Kombination davon. Die Veröffentlichung von qualitativen Daten pro Sprachpaar wäre ein Benchmarking des Modells eines anderen – darin liegt kein Marketingwert.
Ehrliche Qualitätsdaten sind schwer auf einer Werbetafel darzustellen. Eine einzelne Punktzahl ist verrauscht. Eine Verteilung ist nützlicher, aber schwieriger zu komprimieren. Ein Trend der letzten sechs Monate ist noch nützlicher und noch schwieriger darzustellen.
Die Beschaffung hat noch nicht darauf reagiert. Käufer akzeptieren die Marketingzahlen für bare Münze, und so bleibt das Gleichgewicht erhalten.

Das Gleichgewicht wird nicht halten. Die nächste Käuferschicht – Pharma, Recht, Finanzen, Wirtschaftsprüfung, öffentlicher Sektor – wird schwierigere Fragen stellen als "wie viele Sprachen". Wir haben /benchmark entwickelt, weil wir der Meinung sind, dass sie sich nicht auf das Wort eines Anbieters verlassen sollten.

Was Ihnen die Marketingzahlen nicht verraten

"200+ Sprachen" bedeutet, dass ein Anbieter ein Modell besitzt, das Text in 200 Sprachen ausgibt. Die Qualität dieser Sprachen reicht von produktionsreif für gängige Paare (EN↔DE, EN↔ES, EN↔FR) bis kaum nutzbar für Paare mit geringen Ressourcen. Ohne eine Aufschlüsselung pro Sprachpaar können Sie nicht erkennen, auf welcher Seite dieser Linie Ihr Meeting landen wird.

"6.000+ Sprachpaare" ist eine N × N-Kombinatorik bei 80 Ausgangssprachen. Zu sagen, dass Sie 6.000 Paare unterstützen, ist der einfache Teil. Zu sagen, dass ein bestimmtes Paar gut genug für eine CAPA-Überprüfung, eine Vertragsverhandlung oder eine Gewinnmitteilung ist – das ist der Teil, der nicht in der Broschüre steht.

"99% genau", ohne anzugeben, was gemessen wurde, gegen welche Referenz, an welcher Stichprobe, durch welchen Gutachter – ist inhaltsleer. Übersetzungsqualität hat keinen universellen Skalar. Sie hat eine Verteilung, die vom Sprachpaar, dem Inhaltsbereich, der Audioqualität (für Sprache), dem Latenzbudget und davon abhängt, was "gut genug" für den spezifischen Anwendungsfall bedeutet.

Was ein Käufer wirklich wissen muss

Die Fragen, die in echten DPA-Überprüfungen und Beschaffungsbewertungen auftauchen:

Qualität pro Sprachpaar – wie gut schneidet dies bei DE↔EN, EN↔AR, JA↔KO ab, speziell?
Stichprobengröße – auf wie vielen Durchläufen basiert Ihre angegebene Zahl? Zehn? Zehntausend?
Methodik – wer bewertet die Übersetzungen, gegen welche Referenz, mit welcher Rubrik?
Verteilung, nicht Durchschnitt – wie sehen die schlechtesten 10% aus? Die besten 10%? Der Median?
Veränderung im Zeitverlauf – hat sich ein bestimmtes Paar verbessert oder verschlechtert, seit Sie zuletzt eine Zahl veröffentlicht haben?
Was Sie nicht messen – was erfasst Ihr Benchmark explizit nicht?

Nichts davon ist unbeantwortbar. Es steht nur nicht auf den Marketingseiten der Anbieter.

Was wir veröffentlichen

/benchmark ist unsere Antwort. Die Methodik finden Sie unter /benchmark/methodology – geschrieben, bevor wir wussten, dass Sie dies lesen würden.

Drei Dinge unterscheiden es von den Kategorienormen.

1. Realer Datenverkehr, keine kuratierte Suite

Jede Punktzahl im öffentlichen Benchmark stammt aus einem echten /demo-Testlauf. Wir wählen keine Paare vorab aus, die gut abschneiden. Die gleiche Pipeline, die eine Demo für einen Käufer bereitstellt, ist diejenige, die gemessen wird.

2. Der Gutachter wird genannt

Primär: google/gemini-2.5-flash. Fallback: anthropic/claude-sonnet-4-20250514. Beide über Vercel AI Gateway. Der Gutachter ist Teil der Methodik – namentlich offengelegt. Wenn wir den Gutachter in Zukunft ändern, werden historische Zeilen den ursprünglichen Gutachter-Identifikator tragen; alte Bewertungen werden niemals stillschweigend neu bewertet.

3. Die Verteilung ist die Datenbasis, nicht der Durchschnitt

Jede veröffentlichte Zeile zeigt Median, p10, p90, Min, Max und Stichprobengröße – nicht eine einzelne Zahl. Eine einzelne Zahl für ein Übersetzungspaar ist Rauschen. Die Form der Verteilung ist das Signal.

Praktiken, die die Kategorie nicht übernommen hat

Paare mit niedriger Punktzahl werden nicht versteckt. Der öffentliche Index ist auf ≥ 10 unterschiedliche IPs, ≥ 10 Durchläufe, Median ≥ 60 beschränkt – aber jeder kann direkt zu jedem Paar verlinken und die echten Zahlen sehen, einschließlich der Paare, die diesen Monat schlecht abschneiden.
Bekannte Probleme werden dokumentiert. Als die Chat-Testumgebung Anfang 2026 für einige Wochen defekt war, wurde dieser Zeitraum aus dem Index unterdrückt und schriftlich auf der Methodik-Seite vermerkt. Die Historie wird nicht stillschweigend umgeschrieben.
Was wir bewusst NICHT behaupten, ist ein vollständiger Abschnitt auf der Methodik-Seite. Wir sagen, wo der LLM-Gutachter selbst unvollkommen ist. Wir sagen, was wir nicht messen (Latenz, Kosten, Benutzerzufriedenheit, ASR-seitige Fehler, bevor die Übersetzung überhaupt läuft). Wir legen offen, dass unsere eigenen automatisierten Smoke-Tests Teil des Datenverkehrs sind.

Ein Filter für die nächste Anbieterbewertung

Wenn Sie eine mehrsprachige Meeting-Plattform bewerten – unsere oder eine andere –, ist die Methodik die Seite, die es wert ist, gelesen zu werden. Die Zahlen selbst sind der einfache Teil.

Ein praktischer Filter für jeden Anbieter in dieser Kategorie:

Fragen Sie nach monatlichen Qualitätsdaten pro Sprachpaar, basierend auf realem Datenverkehr. Kein kuratierter Benchmark. Keine Aggregation.
Fragen Sie, wer ihr Gutachter ist, was sie explizit nicht messen und was sich in den letzten sechs Monaten geändert hat.
Fragen Sie, was passiert, wenn die Punktzahl eines Paares sinkt – informieren sie jemanden darüber oder beheben sie es stillschweigend?

Wenn der Anbieter alle drei Antworten schriftlich vorlegen kann, bewerten Sie ihn ernsthaft. Wenn nicht, kaufen Sie Marketing – nicht Übersetzungsqualität.

Probieren Sie es selbst aus

/demo — führt die Produktionsübersetzungspipeline auf Ihrem Audio aus, bewertet sie mit demselben Gutachter, der den öffentlichen Benchmark bewertet, und zeigt Ihnen die Ausgabe.
/benchmark — jedes veröffentlichte Sprachpaar, jeden Monat, mit der vollständigen Verteilung.
/benchmark/methodology — wie die Zahlen berechnet werden, was sie beinhalten und was nicht.

Sie werden sich in keiner Weise auf unser Wort verlassen müssen. Das ist der Punkt.

Ihre SOPs sind übersetzt. Ihre Besprechungen darüber nicht.

Regulierte Teams lokalisieren kontrollierte Dokumente, führen aber standortübergreifende Audits, CAPA-Überprüfungen und Inspektionen in gebrochenem Englisch durch. Das DMS löst die Dokumentenebene. InterMIND löst die Konversationsebene.