Por que o marketing de qualidade de tradução está quebrado — e o que publicamos no lugar

Abra o site de qualquer fornecedor de tradução ao vivo. Você verá os mesmos tipos de números:

"200+ idiomas"
"6.000+ pares de idiomas"
"Primeiro do mundo" / "Maior precisão"
"99% de precisão"

Agora tente encontrar — em qualquer uma dessas páginas de fornecedor — o que esses números significam para uma reunião que você está prestes a conduzir. Qualidade por idioma. Metodologia reproduzível. Tamanho da amostra. Pontuação ao longo do tempo. Divulgação honesta de onde o modelo é fraco.

Você não vai encontrar. Nem no material de marketing, e raramente na documentação.

Esse é o equilíbrio da categoria. Ele existe por três motivos:

A maioria dos fornecedores não tem o próprio motor de tradução. Eles roteiam por OpenAI, Google, DeepL, Microsoft, ou alguma combinação. Publicar dados de qualidade por par seria fazer benchmark do modelo de outra empresa — não há valor de marketing nisso.
Dados honestos de qualidade são difíceis de colocar em um outdoor. Uma única pontuação tem ruído. Uma distribuição é mais útil, mas mais difícil de comprimir. Uma tendência dos últimos seis meses é ainda mais útil, e ainda mais difícil.
As áreas de compras ainda não cobraram. Os compradores aceitam os números de marketing pelo valor de face, e assim o equilíbrio se mantém.

O equilíbrio não vai se manter. A próxima classe de comprador — farmacêutica, jurídica, financeira, auditoria, setor público — vai fazer perguntas mais difíceis do que "quantos idiomas". Construímos o /benchmark porque achamos que eles não deveriam ter que confiar na palavra de um fornecedor.

O que os números de marketing não te contam

"200+ idiomas" significa que um fornecedor tem um modelo que emite texto em 200 idiomas. A qualidade nesses idiomas varia de nível de produção para os pares principais (EN↔DE, EN↔ES, EN↔FR) a quase inutilizável para pares de baixo recurso. Sem um detalhamento por par, você não consegue saber de que lado dessa linha sua reunião vai cair.

"6.000+ pares de idiomas" é uma combinatória N × N em 80 idiomas de origem. Dizer que você suporta 6.000 pares é a parte fácil. Dizer que qualquer par específico é bom o suficiente para uma revisão de CAPA, uma negociação de contrato ou uma teleconferência de resultados — essa é a parte que não está no folheto.

"99% de precisão", sem especificar o que foi medido, contra qual referência, em qual amostra, por qual juiz — é vazio de conteúdo. A qualidade de tradução não tem um escalar universal. Ela tem uma distribuição que depende do par de idiomas, do domínio do conteúdo, da qualidade do áudio (para voz), do orçamento de latência e do que "bom o suficiente" significa para o caso de uso específico.

O que um comprador realmente precisa saber

As perguntas que aparecem em revisões reais de DPA e em avaliações de compras:

Qualidade por par — como isso performa em DE↔EN, EN↔AR, JA↔KO, especificamente?
Tamanho da amostra — em quantas execuções seu número reportado se baseia? Dez? Dez mil?
Metodologia — quem está julgando as traduções, contra qual referência, com qual rubrica?
Distribuição, não média — como são os piores 10%? Os melhores 10%? A mediana?
Drift ao longo do tempo — um determinado par melhorou ou piorou desde a última vez que você publicou um número?
O que você não mede — o que seu benchmark explicitamente não captura?

Nenhuma dessas perguntas é irrespondível. Elas simplesmente não estão na página de marketing de ninguém.

O que publicamos

O /benchmark é a nossa resposta. A metodologia está em /benchmark/methodology — escrita antes de sabermos que você estaria lendo isto.

Três coisas a separam das normas da categoria.

1. Tráfego real, não uma suíte selecionada

Toda pontuação no benchmark público vem de uma execução de teste real do /demo. Não pré-selecionamos pares que performam bem. O mesmo pipeline que atende ao demo de um comprador é o que está sendo medido.

2. O juiz é nomeado

Primário: google/gemini-2.5-flash. Fallback: anthropic/claude-sonnet-4-20250514. Ambos via Vercel AI Gateway. O juiz faz parte da metodologia — divulgado pelo nome. Se trocarmos o juiz no futuro, as linhas históricas carregarão o identificador do juiz original; pontuações antigas nunca são recalculadas silenciosamente.

3. A distribuição é o dado, não a média

Cada linha publicada mostra mediana, p10, p90, mínimo, máximo e tamanho da amostra — não um único número. Um único número para um par de tradução é ruído. O formato da distribuição é o sinal.

Práticas que a categoria não adotou

Pares com pontuação baixa não são escondidos. O índice público é restrito por ≥ 10 IPs distintos, ≥ 10 execuções, mediana ≥ 60 — mas qualquer pessoa pode acessar diretamente qualquer par por deep-link e ver os números reais, incluindo os pares que estão indo mal neste mês.
Problemas conhecidos são documentados. Quando o harness de teste de chat ficou quebrado por algumas semanas no início de 2026, esse período é suprimido do índice e anotado por escrito na página de metodologia. O histórico não é silenciosamente reescrito.
O que deliberadamente NÃO afirmamos é uma seção inteira na página de metodologia. Dizemos onde o próprio juiz LLM é imperfeito. Dizemos o que não medimos (latência, custo, satisfação do usuário, erros do lado do ASR antes mesmo de a tradução rodar). Divulgamos que nossos próprios smoke tests automatizados fazem parte do tráfego.

Um filtro para a próxima avaliação de fornecedor

Se você está avaliando qualquer plataforma de reunião multilíngue — a nossa ou outra — a metodologia é a página que vale a pena ler. Os números em si são a parte fácil.

Um filtro prático para qualquer fornecedor nesta categoria:

Peça dados de qualidade por par de idiomas, por mês, em tráfego real. Não um benchmark selecionado. Não um agregado.
Pergunte qual é o juiz deles, o que explicitamente não medem e o que mudou nos últimos seis meses.
Pergunte o que acontece quando a pontuação de um par cai — eles avisam alguém, ou consertam silenciosamente?

Se o fornecedor tiver as três respostas por escrito, avalie-o a sério. Se não tiver, você está comprando marketing — não qualidade de tradução.

Experimente você mesmo

/demo — roda o pipeline de tradução de produção no seu áudio, pontua contra o mesmo juiz que pontua o benchmark público e mostra o resultado a você.
/benchmark — cada par de idiomas publicado, cada mês, com a distribuição completa.
/benchmark/methodology — como os números são calculados, o que incluem, o que não incluem.

Você não vai precisar confiar na nossa palavra para nada disso. Esse é o ponto.