Pourquoi le marketing de la qualité de traduction est défaillant — et ce que nous publions à la place

Chaque fournisseur de traduction publie le nombre de langues prises en charge. Aucun ne publie une qualité vérifiable par paire de langues sur le trafic réel. Pourquoi cet écart est important lors de votre prochaine évaluation d'approvisionnement — et ce que nous publions à la place.

Pourquoi le marketing de la qualité de traduction est défaillant — et ce que nous publions à la place

Consultez le site de n'importe quel fournisseur de traduction en temps réel. Vous y verrez les mêmes types de chiffres :

"200+ langues"
"6 000+ paires de langues"
"Premier au monde" / "Précision la plus élevée"
"Précision à 99 %"

Essayez maintenant de trouver — sur n'importe quelle page de ces fournisseurs — ce que ces chiffres signifient pour une réunion que vous êtes sur le point d'organiser. La qualité par langue. Une méthodologie reproductible. La taille de l'échantillon. Le score au fil du temps. Une divulgation honnête des faiblesses du modèle.

Vous ne le trouverez pas. Ni dans les textes marketing, ni rarement dans la documentation.

C'est l'équilibre de cette catégorie. Il existe pour trois raisons :

La plupart des fournisseurs ne possèdent pas leur propre moteur de traduction. Ils passent par OpenAI, Google, DeepL, Microsoft, ou une combinaison de ces services. Publier des données de qualité par paire reviendrait à évaluer le modèle d'un tiers — ce qui n'a aucune valeur marketing.
Les données de qualité honnêtes sont difficiles à afficher sur un panneau publicitaire. Un score unique est bruyant. Une distribution est plus utile mais plus difficile à compresser. Une tendance des six derniers mois est encore plus utile, et encore plus difficile.
Les services d'approvisionnement n'ont pas encore riposté. Les acheteurs acceptent les chiffres marketing au pied de la lettre, et l'équilibre perdure.

Cet équilibre ne tiendra pas. La prochaine catégorie d'acheteurs — pharmacie, juridique, finance, audit, secteur public — posera des questions plus difficiles que "combien de langues". Nous avons créé /benchmark parce que nous pensons qu'ils ne devraient pas avoir à croire le fournisseur sur parole.

Ce que les chiffres marketing ne vous disent pas

"200+ langues" signifie qu'un fournisseur dispose d'un modèle qui produit du texte dans 200 langues. La qualité de ces langues varie du niveau de production pour les paires majeures (EN↔DE, EN↔ES, EN↔FR) à un niveau à peine utilisable pour les paires à faibles ressources. Sans une ventilation par paire, vous ne pouvez pas savoir de quel côté de cette ligne votre réunion se situera.

"6 000+ paires de langues" est une combinatoire N × N sur 80 langues source. Dire que vous supportez 6 000 paires est la partie facile. Dire qu'une paire spécifique est suffisamment bonne pour une revue CAPA, une négociation de contrat ou un appel de résultats — c'est la partie qui ne figure pas dans la brochure.

"Précision à 99 %", sans spécifier ce qui a été mesuré, par rapport à quelle référence, sur quel échantillon, par quel juge — est dénué de sens. La qualité de traduction n'a pas de scalaire universel. Elle a une distribution qui dépend de la paire de langues, du domaine du contenu, de la qualité audio (pour la voix), du budget de latence, et de ce que "suffisamment bon" signifie pour le cas d'utilisation spécifique.

Ce qu'un acheteur a réellement besoin de savoir

Les questions qui apparaissent dans les vraies revues DPA et les évaluations d'approvisionnement :

Qualité par paire — comment cela fonctionne-t-il spécifiquement pour DE↔EN, EN↔AR, JA↔KO ?
Taille de l'échantillon — sur combien d'exécutions votre chiffre rapporté est-il basé ? Dix ? Dix mille ?
Méthodologie — qui juge les traductions, par rapport à quelle référence, avec quelle grille d'évaluation ?
Distribution, pas moyenne — à quoi ressemble les 10 % dans le pire des cas ? Les 10 % dans le meilleur des cas ? La médiane ?
Dérive dans le temps — une paire donnée s'est-elle améliorée ou détériorée depuis la dernière publication d'un chiffre ?
Ce que vous ne mesurez pas — qu'est-ce que votre benchmark ne capture explicitement pas ?

Aucune de ces questions n'est sans réponse. Elles ne figurent simplement sur aucune page marketing.

Ce que nous publions

/benchmark est notre réponse. La méthodologie se trouve à l'adresse /benchmark/methodology — écrite avant que nous sachions que vous la liriez.

Trois éléments la distinguent des normes de la catégorie.

1. Trafic réel, pas une suite sélectionnée

Chaque score du benchmark public provient d'une exécution de test /demo réelle. Nous ne présélectionnons pas les paires qui fonctionnent bien. Le même pipeline qui sert la démo d'un acheteur est celui qui est mesuré.

2. Le juge est nommé

Principal : google/gemini-2.5-flash. Repli : anthropic/claude-sonnet-4-20250514. Tous deux via Vercel AI Gateway. Le juge fait partie de la méthodologie — divulgué par son nom. Si nous changeons de juge à l'avenir, les lignes historiques conserveront l'identifiant du juge original ; les anciens scores ne sont jamais silencieusement recalculés.

3. La distribution est la donnée, pas la moyenne

Chaque ligne publiée affiche la médiane, p10, p90, min, max et la taille de l'échantillon — et non un chiffre unique. Un chiffre unique pour une paire de traduction est du bruit. La forme de la distribution est le signal.

Pratiques non adoptées par la catégorie

Les paires à faible score ne sont pas cachées. L'index public est limité à ≥ 10 IP distinctes, ≥ 10 exécutions, médiane ≥ 60 — mais tout le monde peut accéder directement à n'importe quelle paire et voir les chiffres réels, y compris les paires qui fonctionnent mal ce mois-ci.
Les problèmes connus sont documentés. Lorsque le harnais de test de chat a été défaillant pendant quelques semaines plus tôt en 2026, cette période est supprimée de l'index et notée par écrit sur la page de méthodologie. L'historique n'est pas silencieusement réécrit.
Ce que nous ne revendiquons délibérément PAS est une section complète sur la page de méthodologie. Nous expliquons où le juge LLM lui-même est imparfait. Nous disons ce que nous ne mesurons pas (latence, coût, satisfaction de l'utilisateur, erreurs côté ASR avant même le lancement de la traduction). Nous divulguons que nos propres tests automatisés (smoke tests) font partie du trafic.

Un filtre pour la prochaine évaluation de fournisseur

Si vous évaluez une plateforme de réunion multilingue — la nôtre ou une autre — la méthodologie est la page qu'il vaut la peine de lire. Les chiffres eux-mêmes sont la partie facile.

Un filtre pratique pour tout fournisseur de cette catégorie :

Demandez des données de qualité par paire de langues, par mois, sur le trafic réel. Pas un benchmark sélectionné. Pas un agrégat.
Demandez qui est leur juge, ce qu'ils ne mesurent explicitement pas et ce qui a changé au cours des six derniers mois.
Demandez ce qui se passe lorsqu'une paire voit son score baisser — le disent-ils à quelqu'un, ou le corrigent-ils en silence ?

Si le fournisseur a les trois réponses par écrit, évaluez-le sérieusement. S'il ne les a pas, vous achetez du marketing — pas de la qualité de traduction.

Essayez par vous-même

/demo — exécute le pipeline de traduction en production sur votre audio, le note par rapport au même juge qui note le benchmark public, et vous montre le résultat.
/benchmark — chaque paire de langues publiée, chaque mois, avec la distribution complète.
/benchmark/methodology — comment les chiffres sont calculés, ce qu'ils incluent, ce qu'ils n'incluent pas.

Vous n'aurez pas besoin de nous croire sur parole pour tout cela. C'est l'objectif.

Vos SOP sont traduites. Vos réunions à leur sujet, non.

Les équipes réglementées localisent les documents contrôlés, mais mènent les audits inter-sites, les revues CAPA et les inspections dans un anglais approximatif. Le SGD résout la couche documentaire. InterMIND résout la couche conversationnelle.