Почему маркетинг качества перевода сломан — и что мы публикуем вместо этого

Откройте сайт любого вендора живого перевода. Вы увидите одни и те же цифры:

«200+ языков»
«6 000+ языковых пар»
«Первые в мире» / «Высочайшая точность»
«Точность 99%»

А теперь попробуйте найти — на любой из этих страниц — что эти цифры означают для встречи, которую вы собираетесь провести. Качество по каждому языку. Воспроизводимая методология. Размер выборки. Динамика оценки во времени. Честное раскрытие того, где модель работает слабо.

Вы этого не найдёте. Ни в маркетинговых текстах, ни — за редким исключением — в документации.

Это равновесие категории. Оно держится на трёх причинах:

Большинство вендоров не владеют собственным движком перевода. Они маршрутизируют запросы через OpenAI, Google, DeepL, Microsoft или их комбинацию. Публиковать данные по парам означало бы бенчмаркить чужую модель — в этом нет маркетинговой ценности.
Честные данные о качестве сложно вынести на билборд. Один балл — это шум. Распределение полезнее, но его сложнее ужать. Тренд за последние шесть месяцев ещё полезнее — и ещё сложнее.
Закупки пока не давят на вендоров. Покупатели принимают маркетинговые цифры на веру, и равновесие сохраняется.

Это равновесие не удержится. Следующий класс покупателей — фарма, юристы, финансы, аудит, госсектор — будет задавать более жёсткие вопросы, чем «сколько у вас языков». Мы построили /benchmark потому, что считаем: им не должно приходиться верить вендору на слово.

Что маркетинговые цифры вам не говорят

«200+ языков» означает, что у вендора есть модель, которая выдаёт текст на 200 языках. Качество по этим языкам варьируется от продакшен-уровня для крупных пар (EN↔DE, EN↔ES, EN↔FR) до едва пригодного для пар с малыми ресурсами. Без разбивки по парам вы не сможете понять, по какую сторону этой границы окажется ваша встреча.

«6 000+ языковых пар» — это комбинаторика N × N на 80 исходных языках. Сказать, что вы поддерживаете 6 000 пар, — это лёгкая часть. Сказать, что конкретная пара достаточно хороша для CAPA-ревью, переговоров по контракту или отчётного звонка по выручке, — это та часть, которой в брошюре нет.

«Точность 99%» — без указания того, что измерялось, относительно какого эталона, на какой выборке, каким судьёй — это пустое утверждение. У качества перевода нет универсального скаляра. У него есть распределение, которое зависит от языковой пары, домена контента, качества аудио (для голоса), бюджета задержки и от того, что значит «достаточно хорошо» для конкретного сценария.

Что покупателю на самом деле нужно знать

Вопросы, которые всплывают на реальных DPA-ревью и закупочных оценках:

Качество по парам — как это работает конкретно на DE↔EN, EN↔AR, JA↔KO?
Размер выборки — на скольких прогонах основана заявленная цифра? Десять? Десять тысяч?
Методология — кто оценивает переводы, относительно какого эталона, по какой рубрике?
Распределение, а не среднее — как выглядят худшие 10%? Лучшие 10%? Медиана?
Дрейф во времени — конкретная пара стала лучше или хуже с момента последней публикации цифры?
Что вы не измеряете — что ваш бенчмарк явно не охватывает?

Ни один из этих вопросов не безответен. Они просто отсутствуют на маркетинговых страницах.

Что публикуем мы

/benchmark — наш ответ. Методология — на странице /benchmark/methodology, написана до того, как мы узнали, что вы это читаете.

Три вещи отличают её от норм категории.

1. Реальный трафик, а не курируемый набор

Каждая оценка в публичном бенчмарке получена из реального тестового прогона на /demo. Мы не отбираем заранее пары, которые показывают хорошие результаты. Тот же конвейер, который обслуживает демо покупателя, и измеряется.

2. Судья назван по имени

Основной: google/gemini-2.5-flash. Запасной: anthropic/claude-sonnet-4-20250514. Оба — через Vercel AI Gateway. Судья — часть методологии и раскрыт по имени. Если в будущем мы сменим судью, исторические записи сохранят идентификатор исходного судьи; старые оценки никогда не пересчитываются молча.

3. Данные — это распределение, а не среднее

Каждая опубликованная строка показывает медиану, p10, p90, min, max и размер выборки — а не одно число. Одно число для языковой пары — это шум. Форма распределения — это сигнал.

Практики, которые категория не приняла

Пары с низкими оценками не прячутся. Публичный индекс отфильтрован по ≥ 10 уникальных IP, ≥ 10 прогонов, медиана ≥ 60 — но любой может перейти по прямой ссылке на любую пару и увидеть реальные цифры, включая пары, у которых дела в этом месяце идут плохо.
Известные проблемы задокументированы. Когда стенд для тестов чата был сломан несколько недель в начале 2026 года, этот период исключён из индекса и письменно отмечен на странице методологии. История не переписывается молча.
Что мы намеренно НЕ заявляем — это отдельный раздел на странице методологии. Мы говорим, в чём сам LLM-судья несовершенен. Мы говорим, что не измеряем (задержку, стоимость, удовлетворённость пользователей, ошибки ASR до того, как перевод вообще запускается). Мы раскрываем, что наши собственные автоматические smoke-тесты — часть этого трафика.

Фильтр для следующей оценки вендора

Если вы оцениваете любую мультиязычную платформу для встреч — нашу или чужую — методология и есть та страница, которую стоит читать. Сами цифры — это лёгкая часть.

Практический фильтр для любого вендора в этой категории:

Запросите данные о качестве по языковым парам, помесячно, на реальном трафике. Не курируемый бенчмарк. Не агрегат.
Спросите, кто их судья, что они явно не измеряют и что изменилось за последние шесть месяцев.
Спросите, что происходит, когда оценка пары падает — сообщают ли они кому-то об этом или чинят молча?

Если у вендора есть все три ответа в письменном виде — рассматривайте его всерьёз. Если нет — вы покупаете маркетинг, а не качество перевода.

Попробуйте сами

/demo — запускает продакшен-конвейер перевода на вашем аудио, оценивает результат тем же судьёй, что и публичный бенчмарк, и показывает вам вывод.
/benchmark — каждая опубликованная языковая пара, каждый месяц, с полным распределением.
/benchmark/methodology — как вычисляются цифры, что в них входит и чего в них нет.

Вам не придётся верить нам на слово ни в чём из этого. В этом и смысл.