为什么翻译质量营销是无效的 — 以及我们发布了什么
打开任何实时翻译供应商的网站。您会看到相同类型的数据:
- “200+ 种语言”
- “6,000+ 种语言对”
- “世界首创” / “最高准确度”
- “99% 准确率”
现在,尝试在任何这些供应商页面上找到 — 这些数字对于您即将召开的会议意味着什么。每种语言的质量。可重现的方法。样本量。随时间变化的分数。诚实披露模型在何处存在弱点。
您找不到这些信息。营销文案中没有,文档中也鲜有提及。
这是该领域的均衡状态。它之所以存在,是由于以下三点:
- 大多数供应商不拥有自己的翻译引擎。 他们通过 OpenAI, Google, DeepL, Microsoft 或其组合进行路由。发布每对语言的质量数据将是对他人模型的基准测试 — 这没有营销价值。
- 真实的质量数据难以在广告牌上展示。 单一分数是嘈杂的。分布图更有用,但难以压缩。一个
过去六个月的趋势更为有用,但更难呈现。 - 采购方尚未反击。 买家接受营销数字的表面价值,因此这种均衡得以维持。
这种均衡不会持续。下一类买家 — 制药、法律、金融、审计、公共部门 — 将会提出比“有多少种语言”更难的问题。我们构建了 /benchmark 是因为我们认为他们不应该仅仅相信供应商的一面之词。
营销数字没有告诉您的信息
“200+ 种语言” 意味着供应商的模型可以输出 200 种语言的文本。这些语言的质量范围从主要语言对 (EN↔DE, EN↔ES, EN↔FR) 的生产级水平,到低资源语言对的勉强可用水平。如果没有每对语言的详细分解,您无法判断您的会议将落在该线的哪一侧。
“6,000+ 种语言对” 是 80 种源语言的 N × N 组合。声称支持 6,000 种语言对是容易的部分。而声称任何特定的语言对都足以用于 CAPA 审查、合同谈判或财报电话会议 — 这才是宣传册中没有的部分。
“99% 准确率”,如果未说明测量了什么、参考了什么、样本是什么、由谁评判 — 那么这个说法是空洞的。翻译质量没有通用的标量。它有一个分布,取决于语言对、内容领域、音频质量(对于语音)、延迟预算,以及“足够好”对于特定用例的含义。
买家真正需要了解什么
在实际的 DPA 审查和采购评估中出现的问题:
- 每对语言的质量 — 它在 DE↔EN, EN↔AR, JA↔KO 上具体表现如何?
- 样本量 — 您报告的数字是基于多少次运行?十次?一万次?
- 方法论 — 谁在评判翻译质量?参照什么标准?使用什么评分细则?
- 分布而非平均值 — 最差的 10% 是怎样的?最好的 10% 呢?中位数是多少?
- 随时间的变化 — 自上次发布数据以来,特定语言对的质量是变好还是变差了?
- 您未衡量的部分 — 您的基准测试明确不包括哪些方面?
这些问题都不是无法回答的。它们只是没有出现在任何人的营销页面上。
我们发布了什么
/benchmark 是我们的答案。方法论可在 /benchmark/methodology 查看 — 这是在我们知道您会阅读此内容之前编写的。
有三件事使其与行业常态不同。
1. 真实流量,而非精选套件
公共基准测试中的每个分数都来自一次真实的 /demo 测试运行。我们不预先选择表现良好的语言对。为买家演示提供服务的同一管道也正是被衡量的对象。
2. 评判者已命名
主要评判者:google/gemini-2.5-flash。备用评判者:anthropic/claude-sonnet-4-20250514。两者均通过 Vercel AI Gateway。评判者是方法论的一部分 — 已命名披露。如果将来我们更改评判者,历史记录行将保留原始评判者标识符;旧分数绝不会被悄悄地重新评分。
3. 数据是分布,而非平均值
每个发布的行都显示中位数、p10、p90、最小值、最大值和样本量 — 而不是单一数字。翻译语言对的单一数字是噪音。分布的形状才是信号。
行业尚未采纳的实践
- 低分语言对不被隐藏。 公共索引受限于
≥ 10 个独立 IP,≥ 10 次运行,中位数 ≥ 60— 但任何人都可以直接深度链接到任何语言对,查看真实数字,包括本月表现不佳的语言对。 - 已知问题均有记录。 当 2026 年初聊天测试工具损坏数周时,该期间的数据已从索引中删除,并在方法论页面上书面说明。历史记录不会被悄悄改写。
- 我们明确不声明的内容 在方法论页面上有一个完整的部分。我们说明了 LLM 评判本身不完善之处。我们说明了我们不测量哪些内容(延迟、成本、用户满意度、翻译运行前的 ASR 侧错误)。我们披露了我们自己的自动化冒烟测试也是流量的一部分。
下一次供应商评估的筛选标准
如果您正在评估任何多语言会议平台 — 无论是我们的还是其他公司的 — 方法论页面都值得一读。数字本身是容易的部分。
对于此类别的任何供应商,一个实用的筛选标准是:
- 要求提供基于真实流量的每月每对语言质量数据。 而不是精选的基准测试。也不是聚合数据。
- 询问他们的评判者是谁,他们明确不衡量什么,以及过去六个月有什么变化。
- 询问当某个语言对的分数下降时会发生什么 — 他们会通知任何人,还是悄无声息地修复?
如果供应商能以书面形式提供所有这三个问题的答案,请认真评估他们。如果不能,您购买的将是营销 — 而非翻译质量。
亲自试用
/demo— 在您的音频上运行生产翻译管道,对照评估公共基准的同一评判者进行评分,并向您展示输出结果。/benchmark— 每个月发布的每个语言对,以及完整的分布数据。/benchmark/methodology— 数字的计算方式,它们包含什么,不包含什么。
您无需相信我们的任何一面之词。这正是关键所在。