Pourquoi le marketing de la qualité de traduction est cassé — et ce que nous publions à la place

Ouvrez le site de n'importe quel fournisseur de traduction en direct. Vous y verrez le même genre de chiffres :

« 200+ langues »
« 6 000+ paires de langues »
« Première mondiale » / « Précision la plus élevée »
« 99 % de précision »

Essayez maintenant de trouver — sur la moindre de ces pages — ce que ces chiffres signifient pour la réunion que vous vous apprêtez à animer. Qualité par langue. Méthodologie reproductible. Taille d'échantillon. Évolution du score dans le temps. Une divulgation honnête des points faibles du modèle.

Vous ne trouverez rien. Ni dans la communication marketing, ni — la plupart du temps — dans la documentation.

C'est l'équilibre de la catégorie. Il tient pour trois raisons :

La plupart des fournisseurs ne possèdent pas leur moteur de traduction. Ils s'appuient sur OpenAI, Google, DeepL, Microsoft, ou une combinaison de ceux-ci. Publier des données de qualité par paire reviendrait à comparer le modèle de quelqu'un d'autre — sans intérêt marketing.
Des données de qualité honnêtes ne tiennent pas sur un panneau publicitaire. Un score unique est bruité. Une distribution est plus utile mais plus difficile à condenser. Une tendance sur les six derniers mois est encore plus utile, et encore plus difficile.
Les services achats n'ont pas encore poussé en ce sens. Les acheteurs acceptent les chiffres marketing au pied de la lettre, et l'équilibre tient.

Cet équilibre ne tiendra pas. La prochaine génération d'acheteurs — pharma, juridique, finance, audit, secteur public — va poser des questions plus pointues que « combien de langues ». Nous avons construit /benchmark parce que nous estimons qu'ils ne devraient pas avoir à croire un fournisseur sur parole.

Ce que les chiffres marketing ne vous disent pas

« 200+ langues » signifie qu'un fournisseur dispose d'un modèle capable de produire du texte dans 200 langues. La qualité varie, selon les langues, d'un niveau production pour les paires majeures (EN↔DE, EN↔ES, EN↔FR) à un niveau à peine exploitable pour les paires à faibles ressources. Sans ventilation par paire, vous ne pouvez pas savoir de quel côté de cette ligne votre réunion va tomber.

« 6 000+ paires de langues », c'est une combinatoire N × N sur 80 langues sources. Affirmer prendre en charge 6 000 paires est la partie facile. Affirmer qu'une paire spécifique est suffisamment bonne pour une revue CAPA, une négociation contractuelle ou une publication de résultats — voilà la partie qui ne figure pas dans la brochure.

« 99 % de précision », sans préciser ce qui a été mesuré, contre quelle référence, sur quel échantillon, par quel juge — est dépourvu de contenu. La qualité de traduction n'a pas de mesure scalaire universelle. Elle obéit à une distribution qui dépend de la paire de langues, du domaine de contenu, de la qualité audio (pour la voix), du budget de latence, et de ce que signifie « suffisamment bon » pour l'usage précis visé.

Ce qu'un acheteur a réellement besoin de savoir

Les questions qui reviennent dans les vraies revues DPA et évaluations d'achat :

Qualité par paire — quelle est concrètement la performance sur DE↔EN, EN↔AR, JA↔KO ?
Taille d'échantillon — sur combien d'exécutions le chiffre que vous publiez repose-t-il ? Dix ? Dix mille ?
Méthodologie — qui juge les traductions, par rapport à quelle référence, avec quelle grille ?
Distribution, pas moyenne — à quoi ressemblent les 10 % les plus mauvais ? Les 10 % les meilleurs ? La médiane ?
Dérive dans le temps — une paire donnée s'est-elle améliorée ou dégradée depuis votre dernière publication ?
Ce que vous ne mesurez pas — ce que votre benchmark ne capture explicitement pas.

Aucune de ces questions n'est sans réponse. Elles ne figurent simplement sur la page marketing de personne.

Ce que nous publions

/benchmark est notre réponse. La méthodologie est sur /benchmark/methodology — rédigée avant que nous sachions que vous la liriez.

Trois éléments la distinguent des normes de la catégorie.

1. Trafic réel, pas une suite triée sur le volet

Chaque score du benchmark public provient d'une exécution réelle de test sur /demo. Nous ne pré-sélectionnons pas les paires qui obtiennent de bons résultats. Le pipeline qui sert la démo d'un acheteur est le même que celui qui est mesuré.

2. Le juge est nommé

Principal : google/gemini-2.5-flash. Repli : anthropic/claude-sonnet-4-20250514. Tous deux via Vercel AI Gateway. Le juge fait partie de la méthodologie — divulgué nommément. Si nous changeons de juge à l'avenir, les lignes historiques conserveront l'identifiant du juge d'origine ; les anciens scores ne sont jamais re-notés en silence.

3. La distribution est la donnée, pas la moyenne

Chaque ligne publiée affiche la médiane, le p10, le p90, le min, le max et la taille d'échantillon — pas un chiffre unique. Un chiffre unique pour une paire de traduction est du bruit. La forme de la distribution est le signal.

Des pratiques que la catégorie n'a pas adoptées

Les paires à faible score ne sont pas cachées. L'index public est conditionné à ≥ 10 IP distinctes, ≥ 10 exécutions, médiane ≥ 60 — mais n'importe qui peut accéder par lien direct à n'importe quelle paire et voir les vrais chiffres, y compris les paires qui se portent mal ce mois-ci.
Les problèmes connus sont documentés. Lorsque le harnais de test du chat a été en panne pendant quelques semaines début 2026, cette période est exclue de l'index et signalée par écrit sur la page de méthodologie. L'histoire n'est pas réécrite en silence.
Ce que nous nous abstenons délibérément d'affirmer fait l'objet d'une section complète sur la page de méthodologie. Nous indiquons les endroits où le juge LLM lui-même est imparfait. Nous indiquons ce que nous ne mesurons pas (latence, coût, satisfaction utilisateur, erreurs côté ASR avant même que la traduction ne s'exécute). Nous divulguons que nos propres tests automatisés de vérification font partie du trafic.

Un filtre pour la prochaine évaluation de fournisseur

Si vous évaluez une plateforme de réunion multilingue — la nôtre ou une autre — la méthodologie est la page qui mérite d'être lue. Les chiffres en eux-mêmes sont la partie facile.

Un filtre pratique pour tout fournisseur de cette catégorie :

Demandez des données de qualité par paire de langues, par mois, sur du trafic réel. Pas un benchmark trié sur le volet. Pas un agrégat.
Demandez quel est leur juge, ce qu'ils ne mesurent explicitement pas, et ce qui a changé au cours des six derniers mois.
Demandez ce qui se passe quand le score d'une paire chute — préviennent-ils quelqu'un, ou corrigent-ils en silence ?

Si le fournisseur a ces trois réponses par écrit, évaluez-les sérieusement. Sinon, vous achetez du marketing — pas de la qualité de traduction.

Essayez par vous-même

/demo — exécute le pipeline de traduction de production sur votre audio, le note avec le même juge que celui qui note le benchmark public, et vous montre la sortie.
/benchmark — chaque paire de langues publiée, chaque mois, avec la distribution complète.
/benchmark/methodology — comment les chiffres sont calculés, ce qu'ils incluent, ce qu'ils n'incluent pas.

Vous n'aurez pas à nous croire sur parole pour quoi que ce soit. C'est précisément le but.