用您自己的声音——说一门您并不会说的语言

实时翻译中,几乎所有人都做错、却几乎没人讨论的一环是:您听到的那个声音。

您可以拥有出色的语音识别和出色的翻译,但最终的会议听起来仍像是机器在念清单。因为最后一步——把翻译后的文本重新变成声音——正是大多数工具悄悄把您替换为一个通用合成旁白者的地方。房间里有八个人,八个人共用一个机器人嗓音。您听不出是谁在说话,听不出语气,也听不出个性。能听懂,但不是对话。

InterMIND 在这最后一步做得不一样。当您说话时,其他参与者听到的译文使用的是一个可辨识为您本人的声音——带着您的音色和说话方式——只是现在用他们的语言说出来。它目前还不是完美的模仿;关键在于这是您,而不是一个标准化的旁白者,并且效果还在不断变好。这对每位参与者都生效,双向同时进行。

本文是 InterMIND 内部四条翻译管线解析 缺失的一章:那篇文章讲了音频如何变成翻译后的音频。本文要讲的是从另一端出来的是谁的声音。

行业默认做法,以及它为何平淡

如果您在任何一家大型会议平台上用过实时翻译,您就熟悉那种声音。一个中性的、节奏均匀的嗓音在念译文。无论说话人是您的 CEO 在全员大会上开场,还是同事在讲笑话,声音都一样。底层技术是使用一个固定语音模型的文本转语音,设计上的假设是:听得懂就够了。

但在真实的会议中,这并不够。会议传达的内容中,有一半在于谁在说,以及怎么说的。去掉声音,您就把讨论变成了一份被朗读出来的会议记录。人们不再相互回应,而是开始排队等着轮到自己。

InterMIND 的做法

翻译以级联管线方式运行——三个专用阶段依次进行,而不是由一个模型试图包办一切。前两个阶段已在管线文章中介绍;本文要讲的是语音环节:

ASR——语音识别。 您说话时,您的话语在您自己的浏览器中以您自己的语言被转录。(在本地运行可省去一次往返,在翻译开始之前就将延迟降到最低。)
MT——翻译。 转录文本被切分为稳定的句子片段——分句——以便在您还没说完整句话之前就开始翻译,每个片段都渐进地翻译成听者的语言。
零样本 TTS——语音合成。 每个翻译后的片段都使用您自己声音的样本重新发声,并流式传给听者。

正是第三阶段——ASR → MT → 零样本 TTS——产生了这种效果。"零样本"意味着系统不需要预先录制的注册音频或针对您嗓音的训练流程。它直接从您正在参加的这场会议的音频中建模您的声音。

预热:如何这么快就开始听起来像您

"使用您自己声音的样本"里藏着一个先有鸡还是先有蛋的问题。在通话刚开始时,系统还没有听到足够多您的声音,无法很好地建模。

InterMIND 通过渐进式预热来处理这一点:

大约在最初的 5–10 秒内,系统还在收集您足够多的语音时,每个翻译片段都使用与您刚刚在源语言中说出的内容相对应的音频片段来合成。发声锚定在您真实的、即时的语音上。
当样本足够长时——即那个 5–10 秒的节点——系统会锁定它,并用它为之后的所有内容发声。

实际上您不会听到一个明显的切换。随着对话推进,译文会越来越像您——不是您声音的完美复刻,但明显是您的而非机器的,并且随着模型听到更多内容而不断改善。渐进式翻译(逐分句而非逐句)与渐进式发声的结合,正是让整个流程既能控制在延迟预算之内、又能听起来像人的关键。

声音样本从不被存储

这是安全或法务团队会立刻问到的问题,所以直说:

用于合成的声音样本是临时性的。它只在实时会议会话期间存在,服务于译文发声,并且不会被存储在任何地方。驱动实时会话的 Mind API 和 SDK 不保留任何数据——所有临时数据在会议会话结束时即销毁。

值得明确这个样本不是什么:它不是 InterMIND 的录制功能之一。录制会议的视频和音频是您有意进行的另一项独立操作,有其自己的控制选项。本人声音样本不是录音——它是语音合成器的瞬态输入,不会比通话本身存活更久。

这一点不仅关乎隐私卫生。"用您自己的声音说话"恰恰是那种听起来似乎应该在某处存储声纹的功能。它没有。诚实的说法才是更好的故事:您的声音在当下被建模,在您挂断时消失。

为什么没人能做到这一点

并不是声音克隆是什么秘密。而是要做到实时进行、按参与者分别处理、双向同时、在一秒延迟预算内、跨 21 种语言、并且不存储任何东西——这与离线为播客克隆一段声音是完全不同的问题。

大型平台将翻译优化为字幕覆盖加一个安全的单一旁白嗓音——这是规模化下既便宜又稳健的默认方案。要保留每位说话人本人的声音,合成阶段就必须独立追踪每位参与者,并待在管线其余部分共同遵守的同一延迟预算之内。我们自己构建了语音引擎,运行在我们自己的基础设施上,这正是我们能自行做出这种取舍的原因。(关于引擎为何是我们自己的代码,详见:一场 InterMIND 会议由什么构成。)

下一步:唇形同步

保留您的声音只是更大目标的一半。另一半是您的面孔。

目前您听到对方说话时是他们自己的声音,但如果对方开了摄像头,他们的嘴唇仍在按照他们实际说出的话——一种您看不懂的语言——做口型。下一步是唇形同步:重新调整说话人的嘴部动作以匹配翻译后的音频,使他们在您的屏幕上看起来像是在说您的语言。

把两者结合起来,这项工作的真正意义就清晰了。两个没有共同语言的人坐在视频通话两端,看到和听到对方就像各自都是对方语言的母语者——同一个声音,同一张脸,中间没有翻译员,也没有机器人在念稿子。

需要明确状态:语音功能现已上线;唇形同步在路线图上,尚未发布。 我们之所以指出这个目标,是因为它正是语音工作的意义所在——本人声音翻译并不是终点功能,而是"以您本人身份,用任何语言,与任何人对话"的前半段。

在哪里听到效果

本人声音翻译现已上线,覆盖全部 21 种语音语言——与文档中列出的语言一致。无需单独开启:当会议中启用翻译时,参与者会自动以彼此本人的声音听到对方。我们如实交代当前状态:今天的声音已经能让人辨识出您,而相似度是我们正在持续推进改进的方向。请亲自去听,自行判断。

试用演示 —— 用 21 种语言中的任意一种,在您的音频上运行实时语音管线。
查看质量数据 —— 同一条生产管线,每月对照 FLORES-200 评分,并按语言对发布完整分布。
工作原理(文档) —— 本文的简短版本。

一场翻译后的会议,听起来应该像是真正参加会议的人在彼此交谈。保留您的声音正是通往那里的方式。