[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-post-zh-/own-voice-translation":3},{"page":4,"surround":337},{"id":5,"title":6,"authors":7,"badge":10,"body":11,"date":326,"description":327,"extension":328,"heroOrder":329,"image":330,"meta":331,"navigation":332,"path":333,"seo":334,"stem":335,"__hash__":336},"blog_zh/blog/own-voice-translation.md","用您自己的声音——说一门您并不会说的语言",[8],{"name":9},"The Mind.com Team","Architecture",{"type":12,"value":13,"toc":314},"minimark",[14,18,26,34,44,55,58,63,66,77,81,92,122,129,133,140,143,162,172,175,178,193,204,211,214,221,231,235,242,253,256,263,266,282,311],[15,16,6],"h1",{"id":17},"用您自己的声音说一门您并不会说的语言",[19,20,21,22],"p",{},"实时翻译中,几乎所有人都做错、却几乎没人讨论的一环是:",[23,24,25],"strong",{},"您听到的那个声音。",[19,27,28,29,33],{},"您可以拥有出色的语音识别和出色的翻译,但最终的会议听起来仍像是机器在念清单。因为最后一步——把翻译后的文本重新变成声音——正是大多数工具悄悄把",[30,31,32],"em",{},"您","替换为一个通用合成旁白者的地方。房间里有八个人,八个人共用一个机器人嗓音。您听不出是谁在说话,听不出语气,也听不出个性。能听懂,但不是对话。",[19,35,36,37,40,41,43],{},"InterMIND 在这最后一步做得不一样。当您说话时,其他参与者听到的译文使用的是一个",[23,38,39],{},"可辨识为您本人","的声音——带着您的音色和说话方式——只是现在用他们的语言说出来。它目前还不是完美的模仿;关键在于这是",[30,42,32],{},",而不是一个标准化的旁白者,并且效果还在不断变好。这对每位参与者都生效,双向同时进行。",[19,45,46,47,54],{},"本文是 ",[48,49,51],"a",{"href":50},"/blog/inside-the-translation-pipelines",[30,52,53],{},"InterMIND 内部四条翻译管线解析"," 缺失的一章:那篇文章讲了音频如何变成翻译后的音频。本文要讲的是从另一端出来的是谁的声音。",[56,57],"hr",{},[59,60,62],"h2",{"id":61},"行业默认做法以及它为何平淡","行业默认做法,以及它为何平淡",[19,64,65],{},"如果您在任何一家大型会议平台上用过实时翻译,您就熟悉那种声音。一个中性的、节奏均匀的嗓音在念译文。无论说话人是您的 CEO 在全员大会上开场,还是同事在讲笑话,声音都一样。底层技术是使用一个固定语音模型的文本转语音,设计上的假设是:听得懂就够了。",[19,67,68,69,72,73,76],{},"但在真实的会议中,这并不够。会议传达的内容中,有一半在于",[30,70,71],{},"谁","在说,以及",[30,74,75],{},"怎么","说的。去掉声音,您就把讨论变成了一份被朗读出来的会议记录。人们不再相互回应,而是开始排队等着轮到自己。",[59,78,80],{"id":79},"intermind-的做法","InterMIND 的做法",[19,82,83,84,87,88,91],{},"翻译以",[23,85,86],{},"级联管线","方式运行——三个专用阶段依次进行,而不是由一个模型试图包办一切。前两个阶段已在",[48,89,90],{"href":50},"管线文章","中介绍;本文要讲的是语音环节:",[93,94,95,102,112],"ol",{},[96,97,98,101],"li",{},[23,99,100],{},"ASR——语音识别。"," 您说话时,您的话语在您自己的浏览器中以您自己的语言被转录。(在本地运行可省去一次往返,在翻译开始之前就将延迟降到最低。)",[96,103,104,107,108,111],{},[23,105,106],{},"MT——翻译。"," 转录文本被切分为稳定的句子片段——",[30,109,110],{},"分句","——以便在您还没说完整句话之前就开始翻译,每个片段都渐进地翻译成听者的语言。",[96,113,114,117,118,121],{},[23,115,116],{},"零样本 TTS——语音合成。"," 每个翻译后的片段都",[23,119,120],{},"使用您自己声音的样本","重新发声,并流式传给听者。",[19,123,124,125,128],{},"正是第三阶段——ASR → MT → ",[23,126,127],{},"零样本 TTS","——产生了这种效果。\"零样本\"意味着系统不需要预先录制的注册音频或针对您嗓音的训练流程。它直接从您正在参加的这场会议的音频中建模您的声音。",[59,130,132],{"id":131},"预热如何这么快就开始听起来像您","预热:如何这么快就开始听起来像您",[19,134,135,136,139],{},"\"使用您自己声音的样本\"里藏着一个先有鸡还是先有蛋的问题。在通话刚开始时,系统还没有",[30,137,138],{},"听","到足够多您的声音,无法很好地建模。",[19,141,142],{},"InterMIND 通过渐进式预热来处理这一点:",[144,145,146,156],"ul",{},[96,147,148,151,152,155],{},[23,149,150],{},"大约在最初的 5–10 秒内",",系统还在收集您足够多的语音时,每个翻译片段都使用与您",[30,153,154],{},"刚刚","在源语言中说出的内容相对应的音频片段来合成。发声锚定在您真实的、即时的语音上。",[96,157,158,161],{},[23,159,160],{},"当样本足够长时","——即那个 5–10 秒的节点——系统会锁定它,并用它为之后的所有内容发声。",[19,163,164,165,168,169,171],{},"实际上您不会听到一个明显的切换。随着对话推进,译文会越来越像您——不是您声音的完美复刻,但明显是您的而非机器的,并且随着模型听到更多内容而不断改善。",[30,166,167],{},"渐进式","翻译(逐分句而非逐句)与",[30,170,167],{},"发声的结合,正是让整个流程既能控制在延迟预算之内、又能听起来像人的关键。",[59,173,174],{"id":174},"声音样本从不被存储",[19,176,177],{},"这是安全或法务团队会立刻问到的问题,所以直说:",[19,179,180,181,184,185,188,189,192],{},"用于合成的声音样本是",[23,182,183],{},"临时性的","。它只在实时会议会话期间存在,服务于译文发声,并且",[23,186,187],{},"不会被存储在任何地方","。驱动实时会话的 Mind API 和 SDK ",[23,190,191],{},"不保留任何数据","——所有临时数据在会议会话结束时即销毁。",[19,194,195,196,199,200,203],{},"值得明确这个样本",[30,197,198],{},"不是","什么:它不是 InterMIND 的",[23,201,202],{},"录制","功能之一。录制会议的视频和音频是您有意进行的另一项独立操作,有其自己的控制选项。本人声音样本不是录音——它是语音合成器的瞬态输入,不会比通话本身存活更久。",[19,205,206,207,210],{},"这一点不仅关乎隐私卫生。\"用您自己的声音说话\"恰恰是那种",[30,208,209],{},"听起来","似乎应该在某处存储声纹的功能。它没有。诚实的说法才是更好的故事:您的声音在当下被建模,在您挂断时消失。",[59,212,213],{"id":213},"为什么没人能做到这一点",[19,215,216,217,220],{},"并不是声音克隆是什么秘密。而是要做到",[23,218,219],{},"实时进行、按参与者分别处理、双向同时、在一秒延迟预算内、跨 21 种语言、并且不存储任何东西","——这与离线为播客克隆一段声音是完全不同的问题。",[19,222,223,224,230],{},"大型平台将翻译优化为字幕覆盖加一个安全的单一旁白嗓音——这是规模化下既便宜又稳健的默认方案。要保留每位说话人本人的声音,合成阶段就必须独立追踪每位参与者,并待在管线其余部分共同遵守的同一延迟预算之内。我们自己构建了语音引擎,运行在我们自己的基础设施上,这正是我们能自行做出这种取舍的原因。(关于引擎为何是我们自己的代码,详见:",[48,225,227],{"href":226},"/blog/what-one-intermind-meeting-is-built-from",[30,228,229],{},"一场 InterMIND 会议由什么构成","。)",[59,232,234],{"id":233},"下一步唇形同步","下一步:唇形同步",[19,236,237,238,241],{},"保留您的声音只是更大目标的一半。另一半是您的",[23,239,240],{},"面孔","。",[19,243,244,245,248,249,252],{},"目前您听到对方说话时是他们自己的声音,但如果对方开了摄像头,他们的嘴唇仍在按照他们实际说出的话——一种您看不懂的语言——做口型。下一步是",[23,246,247],{},"唇形同步",":重新调整说话人的嘴部动作以匹配翻译后的音频,使他们在您的屏幕上看起来像是在说",[30,250,251],{},"您的","语言。",[19,254,255],{},"把两者结合起来,这项工作的真正意义就清晰了。两个没有共同语言的人坐在视频通话两端,看到和听到对方就像各自都是对方语言的母语者——同一个声音,同一张脸,中间没有翻译员,也没有机器人在念稿子。",[19,257,258,259,262],{},"需要明确状态:",[23,260,261],{},"语音功能现已上线;唇形同步在路线图上,尚未发布。"," 我们之所以指出这个目标,是因为它正是语音工作的意义所在——本人声音翻译并不是终点功能,而是\"以您本人身份,用任何语言,与任何人对话\"的前半段。",[59,264,265],{"id":265},"在哪里听到效果",[19,267,268,269,272,273,277,278,281],{},"本人声音翻译",[23,270,271],{},"现已上线,覆盖全部 21 种语音语言","——与",[48,274,276],{"href":275},"/docs/translation/languages","文档","中列出的语言一致。无需单独开启:当会议中启用翻译时,参与者会自动以彼此本人的声音听到对方。我们如实交代当前状态:今天的声音已经能让人辨识",[30,279,280],{},"出您",",而相似度是我们正在持续推进改进的方向。请亲自去听,自行判断。",[144,283,284,293,302],{},[96,285,286,292],{},[23,287,288],{},[48,289,291],{"href":290},"/demo","试用演示"," —— 用 21 种语言中的任意一种,在您的音频上运行实时语音管线。",[96,294,295,301],{},[23,296,297],{},[48,298,300],{"href":299},"/benchmark","查看质量数据"," —— 同一条生产管线,每月对照 FLORES-200 评分,并按语言对发布完整分布。",[96,303,304,310],{},[23,305,306],{},[48,307,309],{"href":308},"/docs/translation/own-voice","工作原理(文档)"," —— 本文的简短版本。",[19,312,313],{},"一场翻译后的会议,听起来应该像是真正参加会议的人在彼此交谈。保留您的声音正是通往那里的方式。",{"title":315,"searchDepth":316,"depth":317,"links":318},"",2,3,[319,320,321,322,323,324,325],{"id":61,"depth":316,"text":62},{"id":79,"depth":316,"text":80},{"id":131,"depth":316,"text":132},{"id":174,"depth":316,"text":174},{"id":213,"depth":316,"text":213},{"id":233,"depth":316,"text":234},{"id":265,"depth":316,"text":265},"2026-06-13","大多数实时翻译工具会把您替换成一个机械的旁白者。InterMIND 保留您的声音:每位参与者听到的译文都使用原说话人本人的声音。下面是级联管线如何做到这一点——以及为什么声音样本从不被存储。","md",null,"/blog/own-voice-translation.svg",{},true,"/blog/own-voice-translation",{"title":6,"description":327},"blog/own-voice-translation","8hkvYwM38E_dJlNvg-LgJrInKqJB61Cy0ZF70rW4V-Q",[338,344],{"title":339,"path":340,"stem":341,"description":342,"order":343,"children":-1},"博客","/blog","blog/index","InterMIND 团队的最新消息和更新。",8,{"title":345,"path":346,"stem":347,"description":348,"children":-1},"Microsoft Teams 实时翻译：工作原理与边界所在","/blog/teams-live-translation","blog/teams-live-translation","Teams 可通过三种方式翻译实时会议——翻译字幕、AI Interpreter 代理和人工口译通道。各自需要什么、成本几何，以及决定是否适合您会议的限制条件。"]