Методология

Почему маркетинг качества перевода не работает — и что мы публикуем взамен

Любой вендор перевода публикует количество языков. Никто не публикует проверяемое качество по парам на реальном трафике. Почему этот пробел важен в вашей следующей закупке — и что мы публикуем вместо этого.

Команда Mind.com

Почему маркетинг качества перевода не работает — и что мы публикуем взамен

Почему маркетинг качества перевода не работает — и что мы публикуем взамен

Откройте сайт любого вендора live-перевода. Вы увидите одни и те же цифры:

  • «200+ языков»
  • «6 000+ языковых пар»
  • «Первые в мире» / «Высочайшая точность»
  • «Точность 99%»

Теперь попробуйте найти — на любой из этих маркетинговых страниц — что эти цифры значат для встречи, которую вы собираетесь провести. Качество по конкретному языку. Воспроизводимую методику. Размер выборки. Динамику оценки во времени. Честное признание, где модель слаба.

Не найдёте. Ни в маркетинге, ни — что бывает реже — в документации.

Это равновесие категории. Оно существует по трём причинам:

  1. У большинства вендоров нет собственного движка перевода. Они проксируют OpenAI, Google, DeepL, Microsoft или их комбинацию. Опубликовать качество по парам — значит бенчмаркить чужую модель. В маркетинге это бессмысленно.
  2. Честные данные о качестве не помещаются на билборде. Один скор — шумный. Распределение полезнее, но компактно его не подашь. Тренд за последние полгода — ещё полезнее, но это вообще не на одну страницу.
  3. Закупки пока не давят на этот пункт. Покупатели принимают маркетинговые цифры на веру — и равновесие держится.

Это равновесие не удержится. Следующий класс покупателя — фарма, юридический, финансовый, аудиторский, госсектор — задаст вопросы посложнее, чем «сколько у вас языков». Мы построили /benchmark именно потому, что считаем: им не должно приходиться верить вендору на слово.


Что эти маркетинговые цифры на самом деле не говорят

«200+ языков» означает, что у вендора есть модель, которая выдаёт текст на 200 языках. Качество варьируется от production-уровня для основных пар (EN↔DE, EN↔ES, EN↔FR) до едва пригодного для пар с малыми ресурсами. Без разбивки по парам вы не узнаете, по какую сторону этой границы окажется ваша встреча.

«6 000+ языковых пар» — это N × N комбинаторика на 80 исходных языках. Сказать, что поддерживается 6 000 пар — простая часть. Сказать, что конкретная пара достаточно хороша для CAPA-ревью, переговоров по контракту или earnings-колла — это уже не на буклете.

«Точность 99%» — без указания, что измерялось, относительно какого эталона, на какой выборке, каким судьёй — бессодержательная цифра. У качества перевода нет универсального скаляра. Есть распределение, зависящее от пары языков, домена контента, качества аудио (для голоса), бюджета задержки и того, что значит «достаточно хорошо» для конкретного use case.


Что покупателю нужно знать на самом деле

Вопросы, которые всплывают в реальных DPA-ревью и закупочных оценках:

  1. Качество по парам — как это работает конкретно на DE↔EN, EN↔AR, JA↔KO?
  2. Размер выборки — на скольких прогонах основано ваше число? Десять? Десять тысяч?
  3. Методика — кто судит переводы, против какого эталона, по какой рубрике?
  4. Распределение, а не среднее — как выглядят худшие 10%? Лучшие 10%? Медиана?
  5. Сдвиг во времени — стала ли конкретная пара лучше или хуже с момента последней публикации?
  6. Что не измеряете — что ваш бенчмарк явно НЕ покрывает?

Ни один из этих вопросов не безответный. Они просто не на маркетинговой странице.


Что публикуем мы

/benchmark — наш ответ. Методика на /benchmark/methodology — написана до того, как мы знали, что вы это читаете.

Три вещи отличают её от нормы категории.

1. Реальный трафик, не курированный набор

Каждый скор в публичном бенчмарке — реальный прогон /demo. Мы не предотбираем пары, которые работают хорошо. Тот же пайплайн, что обслуживает демо покупателя — на нём же и меряемся.

2. Судья назван

Основной: google/gemini-2.5-flash. Резервный: anthropic/claude-sonnet-4-20250514. Оба через Vercel AI Gateway. Судья — часть методики, раскрыт по имени. Если мы поменяем судью в будущем, исторические записи будут нести идентификатор оригинального; старые скоры никогда не пересчитываются молча.

3. Распределение — это данные, а не среднее

В каждой публичной строке: медиана, p10, p90, min, max, размер выборки — не одно число. Одно число для пары переводов — шум. Форма распределения — сигнал.


Практики, которые категория не переняла

  • Низкие скоры мы не прячем. Публичный индекс гейтится по ≥ 10 уникальных IP, ≥ 10 прогонов, медиана ≥ 60 — но кто угодно может открыть любую пару по прямой ссылке и увидеть реальные числа, в том числе пары, которые в этом месяце упали.
  • Известные проблемы задокументированы. Когда chat-test-харнесс был сломан несколько недель в начале 2026, этот период подавлен из индекса и явно описан на странице методики. Историю не переписываем молча.
  • Раздел «Что мы намеренно НЕ заявляем» — на странице методики. Там сказано, где LLM-судья сам несовершенен. Что мы не измеряем (задержка, стоимость, удовлетворённость пользователя, ошибки ASR до того, как перевод вообще запустился). Что наши собственные автоматические smoke-тесты — тоже часть трафика, и мы это раскрываем.

Фильтр для следующей оценки вендора

Если вы оцениваете любую мультиязычную meeting-платформу — нашу или чужую — читать стоит страницу методики. Числа сами по себе — лёгкая часть.

Практический фильтр для любого вендора в категории:

  • Попросите данные по качеству на реальном трафике, по парам, по месяцам. Не курированный бенчмарк. Не агрегат.
  • Спросите, кто их судья, что они явно НЕ измеряют, и что изменилось за последние полгода.
  • Спросите, что происходит, когда скор пары падает — кому-нибудь говорят или тихо чинят?

Если у вендора есть все три ответа в письменной форме — рассматривайте серьёзно. Если нет — покупаете маркетинг, а не качество перевода.


Попробуйте сами

  • /demo — прогоняет продакшен-пайплайн перевода на вашем аудио, оценивает тем же судьёй, что и публичный бенчмарк, и показывает вывод.
  • /benchmark — каждая опубликованная пара, каждый месяц, с полным распределением.
  • /benchmark/methodology — как считаются числа, что они включают, что не включают.

Верить нам на слово не придётся. В этом и смысл.