翻译质量营销为何失灵——以及我们选择公布什么

打开任何一家实时翻译厂商的官网,您都会看到相似的数字:

现在试着在这些厂商页面上找一找:这些数字对您即将召开的一场会议究竟意味着什么。逐语种质量。可复现的方法论。样本量。随时间变化的得分。对模型短板的诚实披露。

您找不到。无论是营销文案,还是文档,都很少有。

这是整个品类的均衡状态。它之所以存在,是因为三件事:

大多数厂商并不拥有自己的翻译引擎。 他们通过 OpenAI、Google、DeepL、Microsoft 或其组合进行路由。公布逐语种对的质量数据,等于在为别人的模型做基准测试——这对营销毫无价值。
诚实的质量数据很难放上广告牌。 单一分数噪声很大。分布更有参考价值,但更难压缩呈现。过去六个月的趋势 更有参考价值,也更难呈现。
采购方尚未施加压力。 买家从表面上接受这些营销数字,于是这种均衡得以维持。

但这种均衡不会长久。下一批买家——制药、法律、金融、审计、公共部门——会提出比"支持多少种语言"更难回答的问题。我们建立了 /benchmark,正是因为我们认为他们不应该只能听信厂商的一面之词。

营销数字没有告诉您的事

"200+ 种语言" 意味着厂商有一个能在 200 种语言中输出文本的模型。这些语言的质量从主流语种对(EN↔DE、EN↔ES、EN↔FR)的生产级水准,到低资源语种对的勉强可用,跨度极大。没有逐语种对的细分,您无法判断您的会议会落在这条线的哪一侧。

"6,000+ 个语种对" 是基于 80 种源语言的 N × N 组合数学。声称支持 6,000 个语种对是容易的部分。声称某个具体语种对足以胜任 CAPA 审查、合同谈判或财报电话会议——这才是宣传册里没有的部分。

"99% 准确",如果不说明衡量了什么、对照什么参考、基于什么样本、由谁评判——本身没有任何内容含量。翻译质量没有一个普适的标量。它是一个分布,取决于语种对、内容领域、音频质量(对语音而言)、延迟预算,以及"足够好"对具体用例意味着什么。

这些是真实的 DPA 评审和采购评估中会出现的问题:

这些问题没有一个是无法回答的。它们只是没有出现在任何一家的营销页面上。

低分语种对不会被隐藏。 公开索引以 ≥ 10 个不同 IP,≥ 10 次运行,中位数 ≥ 60 为门槛——但任何人都可以直接深度链接到任何语种对,查看真实数字,包括本月表现不佳的那些。
已知问题有文档记录。 当 chat 测试装置在 2026 年初某几周内出现故障时,该时段从索引中被排除,并在方法论页面以书面形式注明。历史不会被悄悄改写。
我们明确不主张的内容 在方法论页面有专门一节。我们说明 LLM 评判者本身在哪些地方并不完美。我们说明哪些东西我们不测量(延迟、成本、用户满意度、翻译之前的 ASR 端错误)。我们披露:我们自己的自动化烟雾测试也是流量的一部分。

如果您正在评估任何多语言会议平台——无论是我们的还是别家的——方法论才是值得阅读的页面。数字本身是容易的部分。

针对本品类任何厂商的一个实用筛选清单:

如果厂商对这三点都有书面答案,请认真评估他们。如果没有,您买到的是营销——而不是翻译质量。

您不必听信我们的一面之词。这正是关键所在。