方法论

为什么翻译质量营销是无效的 — 以及我们发布了什么

每个翻译供应商都公布语言数量。但没有一家公布基于真实流量的可验证的每对语言质量。为什么这个差距在您的下次采购评估中很重要 — 以及我们发布了什么。

The Mind.com Team

为什么翻译质量营销是无效的 — 以及我们发布了什么

为什么翻译质量营销是无效的 — 以及我们发布了什么

打开任何实时翻译供应商的网站。您会看到相同类型的数据:

  • “200+ 种语言”
  • “6,000+ 种语言对”
  • “世界首创” / “最高准确度”
  • “99% 准确率”

现在,尝试在任何这些供应商页面上找到 — 这些数字对于您即将召开的会议意味着什么。每种语言的质量。可重现的方法。样本量。随时间变化的分数。诚实披露模型在何处存在弱点。

您找不到这些信息。营销文案中没有,文档中也鲜有提及。

这是该领域的均衡状态。它之所以存在,是由于以下三点:

  1. 大多数供应商不拥有自己的翻译引擎。 他们通过 OpenAI, Google, DeepL, Microsoft 或其组合进行路由。发布每对语言的质量数据将是对他人模型的基准测试 — 这没有营销价值。
  2. 真实的质量数据难以在广告牌上展示。 单一分数是嘈杂的。分布图更有用,但难以压缩。一个 过去六个月的趋势 更为有用,但更难呈现。
  3. 采购方尚未反击。 买家接受营销数字的表面价值,因此这种均衡得以维持。

这种均衡不会持续。下一类买家 — 制药、法律、金融、审计、公共部门 — 将会提出比“有多少种语言”更难的问题。我们构建了 /benchmark 是因为我们认为他们不应该仅仅相信供应商的一面之词。


营销数字没有告诉您的信息

“200+ 种语言” 意味着供应商的模型可以输出 200 种语言的文本。这些语言的质量范围从主要语言对 (EN↔DE, EN↔ES, EN↔FR) 的生产级水平,到低资源语言对的勉强可用水平。如果没有每对语言的详细分解,您无法判断您的会议将落在该线的哪一侧。

“6,000+ 种语言对” 是 80 种源语言的 N × N 组合。声称支持 6,000 种语言对是容易的部分。而声称任何特定的语言对都足以用于 CAPA 审查、合同谈判或财报电话会议 — 这才是宣传册中没有的部分。

“99% 准确率”,如果未说明测量了什么、参考了什么、样本是什么、由谁评判 — 那么这个说法是空洞的。翻译质量没有通用的标量。它有一个分布,取决于语言对、内容领域、音频质量(对于语音)、延迟预算,以及“足够好”对于特定用例的含义。


买家真正需要了解什么

在实际的 DPA 审查和采购评估中出现的问题:

  1. 每对语言的质量 — 它在 DE↔EN, EN↔AR, JA↔KO 上具体表现如何?
  2. 样本量 — 您报告的数字是基于多少次运行?十次?一万次?
  3. 方法论 — 谁在评判翻译质量?参照什么标准?使用什么评分细则?
  4. 分布而非平均值 — 最差的 10% 是怎样的?最好的 10% 呢?中位数是多少?
  5. 随时间的变化 — 自上次发布数据以来,特定语言对的质量是变好还是变差了?
  6. 您未衡量的部分 — 您的基准测试明确不包括哪些方面?

这些问题都不是无法回答的。它们只是没有出现在任何人的营销页面上。


我们发布了什么

/benchmark 是我们的答案。方法论可在 /benchmark/methodology 查看 — 这是在我们知道您会阅读此内容之前编写的。

有三件事使其与行业常态不同。

1. 真实流量,而非精选套件

公共基准测试中的每个分数都来自一次真实的 /demo 测试运行。我们不预先选择表现良好的语言对。为买家演示提供服务的同一管道也正是被衡量的对象。

2. 评判者已命名

主要评判者:google/gemini-2.5-flash。备用评判者:anthropic/claude-sonnet-4-20250514。两者均通过 Vercel AI Gateway。评判者是方法论的一部分 — 已命名披露。如果将来我们更改评判者,历史记录行将保留原始评判者标识符;旧分数绝不会被悄悄地重新评分。

3. 数据是分布,而非平均值

每个发布的行都显示中位数、p10、p90、最小值、最大值和样本量 — 而不是单一数字。翻译语言对的单一数字是噪音。分布的形状才是信号。


行业尚未采纳的实践

  • 低分语言对不被隐藏。 公共索引受限于 ≥ 10 个独立 IP,≥ 10 次运行,中位数 ≥ 60 — 但任何人都可以直接深度链接到任何语言对,查看真实数字,包括本月表现不佳的语言对。
  • 已知问题均有记录。 当 2026 年初聊天测试工具损坏数周时,该期间的数据已从索引中删除,并在方法论页面上书面说明。历史记录不会被悄悄改写。
  • 我们明确不声明的内容 在方法论页面上有一个完整的部分。我们说明了 LLM 评判本身不完善之处。我们说明了我们不测量哪些内容(延迟、成本、用户满意度、翻译运行前的 ASR 侧错误)。我们披露了我们自己的自动化冒烟测试也是流量的一部分。

下一次供应商评估的筛选标准

如果您正在评估任何多语言会议平台 — 无论是我们的还是其他公司的 — 方法论页面都值得一读。数字本身是容易的部分。

对于此类别的任何供应商,一个实用的筛选标准是:

  • 要求提供基于真实流量的每月每对语言质量数据。 而不是精选的基准测试。也不是聚合数据。
  • 询问他们的评判者是谁,他们明确不衡量什么,以及过去六个月有什么变化。
  • 询问当某个语言对的分数下降时会发生什么 — 他们会通知任何人,还是悄无声息地修复?

如果供应商能以书面形式提供所有这三个问题的答案,请认真评估他们。如果不能,您购买的将是营销 — 而非翻译质量。


亲自试用

  • /demo — 在您的音频上运行生产翻译管道,对照评估公共基准的同一评判者进行评分,并向您展示输出结果。
  • /benchmark — 每个月发布的每个语言对,以及完整的分布数据。
  • /benchmark/methodology — 数字的计算方式,它们包含什么,不包含什么。

您无需相信我们的任何一面之词。这正是关键所在。