您的原声
您的原声
当 InterMIND 将您的话语翻译给其他参会者时,他们听到的不是机械的文本转语音旁白,而是一个清晰可辨属于您本人的声音——保留着您的音色和说话方式——只是用对方的语言说出这些内容。
这一功能在双向和每位参会者之间均独立生效。在一场有五个人讲五种语言的会议中,每个人都能用自己的语言听到其他四人发言,而这四人听起来仍然是他们自己。
实际听感
大多数实时翻译工具都会用一个统一的合成语音替代讲话者。结果虽然听得懂,却平淡乏味——谁在讲话、语气重点、个人风格都丢失了。InterMIND 保留讲话者本人的声音,因此一场翻译后的会议听起来仍像在场各方之间的真实对话,而不是机器朗读出的播报队列。
工作原理
InterMIND 采用级联式流水线,语音合成是其中的最后一步:
- 语音识别——您的话语在您讲话时以您自己的语言被转写。
- 分段——转写结果被切分为稳定的句子片段(小句),以便在您说完整句之前就能开始翻译。
- 翻译——每个片段被逐步翻译为听者所用的语言。
- 语音合成——每个翻译后的片段使用您本人声音的样本朗读出来,并发送给听者。
在会议尚未采集到足够的语音来建模您的声音之前(大约最初 5–10 秒),合成会使用与您刚刚以源语言说出内容相匹配的音频片段。一旦样本足够长,系统就会切换为持续使用该样本进行合成。实际使用中您不会察觉切换——翻译会随通话进行越来越像您本人。它不会是对您声音的完美模仿,但相比通用旁白,是清晰可辨属于您的声音——而且随着模型听到的内容增多,效果会持续改进。
支持的语言
您的原声翻译支持全部 21 种语音语言——与 选择语言 中列出的语种相同。无需单独启用:当 翻译功能开启 时,参会者会自动听到您本人的声音。
隐私
用于合成的声音样本是临时性的。它仅在实时会议进行期间存在,不会保存在任何位置——为实时会话提供支持的 Mind API 与 SDK 在会议结束后不会保留任何数据。该声音样本与 InterMIND 的视频和语音录制功能无关——录制是您主动发起的、独立而明确的操作。
路线图:唇形同步
以您本人的声音听到翻译只是更宏大目标的前半部分。我们正在推进的下一步是唇形同步——重新调整摄像头中讲话者的嘴型,使其与翻译后的音频匹配,让每位参会者看起来都在用对方的语言讲话。结合原声翻译,我们的目标是打造一种通话体验:即使彼此没有共同语言,参会者也仿佛能以对方的母语相互看见和听见。
这是路线图上的项目,尚未发布——上文介绍的原声翻译则已上线可用。