Metodologia

Por que o marketing de qualidade de tradução está quebrado — e o que publicamos em vez disso

Todo fornecedor de tradução publica a contagem de idiomas. Ninguém publica qualidade verificável por par em tráfego real. Por que essa lacuna importa na sua próxima avaliação de aquisição — e o que publicamos em vez disso.

The Mind.com Team

Por que o marketing de qualidade de tradução está quebrado — e o que publicamos em vez disso

Por que o marketing de qualidade de tradução está quebrado — e o que publicamos em vez disso

Abra o site de qualquer fornecedor de tradução ao vivo. Você verá os mesmos tipos de números:

  • "Mais de 200 idiomas"
  • "Mais de 6.000 pares de idiomas"
  • "Primeiro do mundo" / "Mais alta precisão"
  • "99% preciso"

Agora, tente encontrar — em qualquer uma dessas páginas de fornecedores — o que esses números significam para uma reunião que você está prestes a realizar. Qualidade por idioma. Metodologia reproduzível. Tamanho da amostra. Pontuação ao longo do tempo. Divulgação honesta de onde o modelo é fraco.

Você não vai encontrar. Nem no material de marketing, e raramente na documentação.

Este é o equilíbrio da categoria. Ele existe por três motivos:

  1. A maioria dos fornecedores não possui seu motor de tradução. Eles roteiam através de OpenAI, Google, DeepL, Microsoft ou alguma combinação. Publicar dados de qualidade por par seria comparar o modelo de outra pessoa — não há valor de marketing nisso.
  2. Dados honestos de qualidade são difíceis de colocar em um outdoor. Uma única pontuação é ruidosa. Uma distribuição é mais útil, mas mais difícil de compactar. Uma tendência dos últimos seis meses é ainda mais útil, e ainda mais difícil.
  3. A aquisição ainda não reagiu. Os compradores aceitam os números de marketing pelo valor de face, e assim o equilíbrio se mantém.

O equilíbrio não vai se manter. A próxima classe de compradores — farmacêutico, jurídico, financeiro, auditoria, setor público — fará perguntas mais difíceis do que "quantos idiomas". Construímos o /benchmark porque achamos que eles não deveriam ter que acreditar na palavra de um fornecedor.


O que os números de marketing não te contam

"Mais de 200 idiomas" significa que um fornecedor tem um modelo que emite texto em 200 idiomas. A qualidade nesses idiomas varia de nível de produção para pares principais (EN↔DE, EN↔ES, EN↔FR) a mal utilizável para pares de baixa disponibilidade de recursos. Sem um detalhamento por par, você não pode saber em qual lado dessa linha sua reunião se encaixará.

"Mais de 6.000 pares de idiomas" é a combinatória N × N em 80 idiomas de origem. Dizer que você suporta 6.000 pares é a parte fácil. Dizer que qualquer par específico é bom o suficiente para uma revisão CAPA, uma negociação de contrato ou uma teleconferência de resultados — essa é a parte que não está no folheto.

"99% preciso", sem especificar o que foi medido, contra qual referência, em qual amostra, por qual avaliador — é sem conteúdo. A qualidade da tradução não tem um escalar universal. Ela tem uma distribuição que depende do par de idiomas, do domínio do conteúdo, da qualidade do áudio (para voz), do orçamento de latência e do que "bom o suficiente" significa para o caso de uso específico.


O que um comprador realmente precisa saber

As perguntas que aparecem em análises reais de DPA e avaliações de aquisição:

  1. Qualidade por par — como isso se comporta em DE↔EN, EN↔AR, JA↔KO, especificamente?
  2. Tamanho da amostra — em quantas execuções seu número reportado é baseado? Dez? Dez mil?
  3. Metodologia — quem está avaliando as traduções, contra qual referência, com qual rubrica?
  4. Distribuição, não média — como se parece os 10% piores? Os 10% melhores? A mediana?
  5. Desvio ao longo do tempo — um determinado par melhorou ou piorou desde a última vez que você publicou um número?
  6. O que você não mede — o que seu benchmark explicitamente não captura?

Nenhuma dessas perguntas é sem resposta. Elas simplesmente não estão na página de marketing de ninguém.


O que publicamos

/benchmark é a nossa resposta. A metodologia está em /benchmark/methodology — escrita antes de sabermos que você estaria lendo isso.

Três coisas o separam das normas da categoria.

1. Tráfego real, não uma suíte curada

Cada pontuação no benchmark público vem de uma execução de teste real /demo. Não pré-selecionamos pares que performam bem. O mesmo pipeline que atende a demonstração de um comprador é o que está sendo medido.

2. O avaliador é nomeado

Primário: google/gemini-2.5-flash. Alternativo: anthropic/claude-sonnet-4-20250514. Ambos via Vercel AI Gateway. O avaliador faz parte da metodologia — divulgado pelo nome. Se mudarmos o avaliador no futuro, as linhas históricas carregarão o identificador original do avaliador; as pontuações antigas nunca são silenciosamente reavaliadas.

3. A distribuição é o dado, não a média

Cada linha publicada mostra mediana, p10, p90, mínimo, máximo e tamanho da amostra — não um único número. Um único número para um par de tradução é ruído. A forma da distribuição é o sinal.


Práticas que a categoria não adotou

  • Pares com baixa pontuação não são ocultados. O índice público é restrito a ≥ 10 IPs distintos, ≥ 10 execuções, mediana ≥ 60 — mas qualquer pessoa pode fazer um deep-link para qualquer par diretamente e ver os números reais, incluindo os pares que estão com desempenho ruim este mês.
  • Problemas conhecidos são documentados. Quando o conjunto de testes de chat estava com problemas por algumas semanas no início de 2026, esse período é suprimido do índice e anotado por escrito na página de metodologia. A história não é silenciosamente reescrita.
  • O que deliberadamente NÃO reivindicamos é uma seção completa na página de metodologia. Dizemos onde o próprio avaliador LLM é imperfeito. Dizemos o que não medimos (latência, custo, satisfação do usuário, erros do lado ASR antes mesmo da tradução ser executada). Divulgamos que nossos próprios testes automatizados de fumaça fazem parte do tráfego.

Um filtro para a próxima avaliação de fornecedor

Se você está avaliando qualquer plataforma de reunião multilíngue — a nossa ou outra — a metodologia é a página que vale a pena ler. Os números em si são a parte fácil.

Um filtro prático para qualquer fornecedor nesta categoria:

  • Peça dados de qualidade por par de idiomas, por mês, em tráfego real. Não um benchmark curado. Não um agregado.
  • Pergunte qual é o avaliador deles, o que eles explicitamente não medem e o que mudou nos últimos seis meses.
  • Pergunte o que acontece quando a pontuação de um par cai — eles avisam alguém ou corrigem silenciosamente?

Se o fornecedor tiver todas as três respostas por escrito, avalie-o seriamente. Se não tiverem, você está comprando marketing — não qualidade de tradução.


Experimente você mesmo

  • /demo — executa o pipeline de tradução de produção no seu áudio, pontua-o contra o mesmo avaliador que pontua o benchmark público e mostra a você o resultado.
  • /benchmark — cada par de idiomas publicado, a cada mês, com a distribuição completa.
  • /benchmark/methodology — como os números são calculados, o que eles incluem e o que não incluem.

Você não precisará acreditar na nossa palavra em nada disso. Esse é o ponto.