[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-post-zh-/why-translation-quality-marketing-is-broken":3},{"page":4,"surround":334},{"id":5,"title":6,"authors":7,"badge":10,"body":11,"date":324,"description":325,"extension":326,"image":327,"meta":328,"navigation":329,"path":330,"seo":331,"stem":332,"__hash__":333},"blog_zh/blog/why-translation-quality-marketing-is-broken.md","为什么翻译质量营销是无效的 — 以及我们发布了什么",[8],{"name":9},"The Mind.com Team","Methodology",{"type":12,"value":13,"toc":309},"minimark",[14,18,22,38,41,44,47,74,84,87,91,96,105,110,112,115,118,156,159,161,164,177,180,185,194,198,209,213,216,218,221,245,247,250,253,256,275,278,280,283,306],[15,16,6],"h1",{"id":17},"为什么翻译质量营销是无效的-以及我们发布了什么",[19,20,21],"p",{},"打开任何实时翻译供应商的网站。您会看到相同类型的数据：",[23,24,25,29,32,35],"ul",{},[26,27,28],"li",{},"“200+ 种语言”",[26,30,31],{},"“6,000+ 种语言对”",[26,33,34],{},"“世界首创” / “最高准确度”",[26,36,37],{},"“99% 准确率”",[19,39,40],{},"现在，尝试在任何这些供应商页面上找到 — 这些数字对于您即将召开的会议意味着什么。每种语言的质量。可重现的方法。样本量。随时间变化的分数。诚实披露模型在何处存在弱点。",[19,42,43],{},"您找不到这些信息。营销文案中没有，文档中也鲜有提及。",[19,45,46],{},"这是该领域的均衡状态。它之所以存在，是由于以下三点：",[48,49,50,57,68],"ol",{},[26,51,52,56],{},[53,54,55],"strong",{},"大多数供应商不拥有自己的翻译引擎。"," 他们通过 OpenAI, Google, DeepL, Microsoft 或其组合进行路由。发布每对语言的质量数据将是对他人模型的基准测试 — 这没有营销价值。",[26,58,59,62,63,67],{},[53,60,61],{},"真实的质量数据难以在广告牌上展示。"," 单一分数是嘈杂的。分布图更有用，但难以压缩。一个 ",[64,65,66],"code",{},"过去六个月的趋势"," 更为有用，但更难呈现。",[26,69,70,73],{},[53,71,72],{},"采购方尚未反击。"," 买家接受营销数字的表面价值，因此这种均衡得以维持。",[19,75,76,77,83],{},"这种均衡不会持续。下一类买家 — 制药、法律、金融、审计、公共部门 — 将会提出比“有多少种语言”更难的问题。我们构建了 ",[78,79,81],"a",{"href":80},"/benchmark",[64,82,80],{}," 是因为我们认为他们不应该仅仅相信供应商的一面之词。",[85,86],"hr",{},[88,89,90],"h2",{"id":90},"营销数字没有告诉您的信息",[19,92,93,95],{},[53,94,28],{}," 意味着供应商的模型可以输出 200 种语言的文本。这些语言的质量范围从主要语言对 (EN↔DE, EN↔ES, EN↔FR) 的生产级水平，到低资源语言对的勉强可用水平。如果没有每对语言的详细分解，您无法判断您的会议将落在该线的哪一侧。",[19,97,98,100,101,104],{},[53,99,31],{}," 是 80 种源语言的 ",[64,102,103],{},"N × N"," 组合。声称支持 6,000 种语言对是容易的部分。而声称任何特定的语言对都足以用于 CAPA 审查、合同谈判或财报电话会议 — 这才是宣传册中没有的部分。",[19,106,107,109],{},[53,108,37],{},"，如果未说明测量了什么、参考了什么、样本是什么、由谁评判 — 那么这个说法是空洞的。翻译质量没有通用的标量。它有一个分布，取决于语言对、内容领域、音频质量（对于语音）、延迟预算，以及“足够好”对于特定用例的含义。",[85,111],{},[88,113,114],{"id":114},"买家真正需要了解什么",[19,116,117],{},"在实际的 DPA 审查和采购评估中出现的问题：",[48,119,120,126,132,138,144,150],{},[26,121,122,125],{},[53,123,124],{},"每对语言的质量"," — 它在 DE↔EN, EN↔AR, JA↔KO 上具体表现如何？",[26,127,128,131],{},[53,129,130],{},"样本量"," — 您报告的数字是基于多少次运行？十次？一万次？",[26,133,134,137],{},[53,135,136],{},"方法论"," — 谁在评判翻译质量？参照什么标准？使用什么评分细则？",[26,139,140,143],{},[53,141,142],{},"分布而非平均值"," — 最差的 10% 是怎样的？最好的 10% 呢？中位数是多少？",[26,145,146,149],{},[53,147,148],{},"随时间的变化"," — 自上次发布数据以来，特定语言对的质量是变好还是变差了？",[26,151,152,155],{},[53,153,154],{},"您未衡量的部分"," — 您的基准测试明确不包括哪些方面？",[19,157,158],{},"这些问题都不是无法回答的。它们只是没有出现在任何人的营销页面上。",[85,160],{},[88,162,163],{"id":163},"我们发布了什么",[19,165,166,170,171,176],{},[78,167,168],{"href":80},[64,169,80],{}," 是我们的答案。方法论可在 ",[78,172,174],{"href":173},"/benchmark/methodology",[64,175,173],{}," 查看 — 这是在我们知道您会阅读此内容之前编写的。",[19,178,179],{},"有三件事使其与行业常态不同。",[181,182,184],"h3",{"id":183},"_1-真实流量而非精选套件","1. 真实流量，而非精选套件",[19,186,187,188,193],{},"公共基准测试中的每个分数都来自一次真实的 ",[78,189,191],{"href":190},"/demo",[64,192,190],{}," 测试运行。我们不预先选择表现良好的语言对。为买家演示提供服务的同一管道也正是被衡量的对象。",[181,195,197],{"id":196},"_2-评判者已命名","2. 评判者已命名",[19,199,200,201,204,205,208],{},"主要评判者：",[64,202,203],{},"google/gemini-2.5-flash","。备用评判者：",[64,206,207],{},"anthropic/claude-sonnet-4-20250514","。两者均通过 Vercel AI Gateway。评判者是方法论的一部分 — 已命名披露。如果将来我们更改评判者，历史记录行将保留原始评判者标识符；旧分数绝不会被悄悄地重新评分。",[181,210,212],{"id":211},"_3-数据是分布而非平均值","3. 数据是分布，而非平均值",[19,214,215],{},"每个发布的行都显示中位数、p10、p90、最小值、最大值和样本量 — 而不是单一数字。翻译语言对的单一数字是噪音。分布的形状才是信号。",[85,217],{},[88,219,220],{"id":220},"行业尚未采纳的实践",[23,222,223,233,239],{},[26,224,225,228,229,232],{},[53,226,227],{},"低分语言对不被隐藏。"," 公共索引受限于 ",[64,230,231],{},"≥ 10 个独立 IP，≥ 10 次运行，中位数 ≥ 60"," — 但任何人都可以直接深度链接到任何语言对，查看真实数字，包括本月表现不佳的语言对。",[26,234,235,238],{},[53,236,237],{},"已知问题均有记录。"," 当 2026 年初聊天测试工具损坏数周时，该期间的数据已从索引中删除，并在方法论页面上书面说明。历史记录不会被悄悄改写。",[26,240,241,244],{},[53,242,243],{},"我们明确不声明的内容"," 在方法论页面上有一个完整的部分。我们说明了 LLM 评判本身不完善之处。我们说明了我们不测量哪些内容（延迟、成本、用户满意度、翻译运行前的 ASR 侧错误）。我们披露了我们自己的自动化冒烟测试也是流量的一部分。",[85,246],{},[88,248,249],{"id":249},"下一次供应商评估的筛选标准",[19,251,252],{},"如果您正在评估任何多语言会议平台 — 无论是我们的还是其他公司的 — 方法论页面都值得一读。数字本身是容易的部分。",[19,254,255],{},"对于此类别的任何供应商，一个实用的筛选标准是：",[23,257,258,264,269],{},[26,259,260,263],{},[53,261,262],{},"要求提供基于真实流量的每月每对语言质量数据。"," 而不是精选的基准测试。也不是聚合数据。",[26,265,266],{},[53,267,268],{},"询问他们的评判者是谁，他们明确不衡量什么，以及过去六个月有什么变化。",[26,270,271,274],{},[53,272,273],{},"询问当某个语言对的分数下降时会发生什么"," — 他们会通知任何人，还是悄无声息地修复？",[19,276,277],{},"如果供应商能以书面形式提供所有这三个问题的答案，请认真评估他们。如果不能，您购买的将是营销 — 而非翻译质量。",[85,279],{},[88,281,282],{"id":282},"亲自试用",[23,284,285,292,299],{},[26,286,287,291],{},[78,288,289],{"href":190},[64,290,190],{}," — 在您的音频上运行生产翻译管道，对照评估公共基准的同一评判者进行评分，并向您展示输出结果。",[26,293,294,298],{},[78,295,296],{"href":80},[64,297,80],{}," — 每个月发布的每个语言对，以及完整的分布数据。",[26,300,301,305],{},[78,302,303],{"href":173},[64,304,173],{}," — 数字的计算方式，它们包含什么，不包含什么。",[19,307,308],{},"您无需相信我们的任何一面之词。这正是关键所在。",{"title":310,"searchDepth":311,"depth":312,"links":313},"",2,3,[314,315,316,321,322,323],{"id":90,"depth":311,"text":90},{"id":114,"depth":311,"text":114},{"id":163,"depth":311,"text":163,"children":317},[318,319,320],{"id":183,"depth":312,"text":184},{"id":196,"depth":312,"text":197},{"id":211,"depth":312,"text":212},{"id":220,"depth":311,"text":220},{"id":249,"depth":311,"text":249},{"id":282,"depth":311,"text":282},"2026-05-13","每个翻译供应商都公布语言数量。但没有一家公布基于真实流量的可验证的每对语言质量。为什么这个差距在您的下次采购评估中很重要 — 以及我们发布了什么。","md","/blog/why-translation-quality-marketing-is-broken.svg",{},true,"/blog/why-translation-quality-marketing-is-broken",{"title":6,"description":325},"blog/why-translation-quality-marketing-is-broken","H6_GFRQwLJvTXygQmhcwNt4xKkFdmSGhCnqpeP12zmk",[335,340],{"title":336,"path":337,"stem":338,"description":339,"children":-1},"InterMIND 四大翻译流水线揭秘","/blog/inside-the-translation-pipelines","blog/inside-the-translation-pipelines","InterMIND 中没有所谓的“单一翻译”。我们有四条流水线——语音、聊天、笔记、文档——每条都有其专属引擎、延迟预算和质量标准。本文将揭示从您开口讲话到其他语言参与者理解您之间究竟发生了什么。",{"title":341,"path":342,"stem":343,"description":344,"children":-1},"不再强制切换成英语的会议室","/blog/intermind-v1-2-release","blog/intermind-v1-2-release","六周的努力将 InterMIND 从一个翻译演示升级为一个多语言工作空间。每位与会者可选择自己偏好语言的语音、聊天、共享笔记和编辑历史记录——支持21种语言，并带有相应的审计追踪。在2026年6月前对所有人免费。"]