Говорите своим голосом — на языке, которого вы не знаете

Вот часть синхронного перевода, в которой почти все ошибаются и о которой почти никто не говорит: голос, который вы слышите.

Можно иметь отличное распознавание речи и отличный перевод — и всё равно получить встречу, которая ощущается как машина, зачитывающая список. Потому что последний шаг — превращение переведённого текста обратно в звук — это место, где большинство инструментов незаметно подменяют вас единственным обобщённым синтетическим диктором. Восемь человек в комнате — один роботизированный голос на всех. Вы теряете того, кто говорит, теряете акценты, личность. Понятно, но это не разговор.

InterMIND делает последний шаг иначе. Когда вы говорите, остальные участники слышат перевод голосом, который узнаваемо ваш — с вашим тембром и манерой речи — но теперь произносящим слова на их языке. Это пока не идеальное подражание; смысл в том, что это вы, а не стандартный диктор, и качество растёт. Это работает для каждого участника, в обе стороны, одновременно.

Этот пост — недостающая глава к Как устроены четыре конвейера перевода в InterMIND: там объяснялось, как аудио становится переведённым аудио. Этот пост — о том, чьим голосом оно звучит на выходе.

Стандарт, который выпускают все, и почему он плоский

Если вы пользовались синхронным переводом в любой из крупных платформ для встреч, вы знаете этот звук. Нейтральный, ровный голос зачитывает перевод. Это один и тот же голос, говорит ли ваш CEO на общем собрании или коллега шутит. Под капотом — text-to-speech с одной фиксированной голосовой моделью, и заложенное допущение в том, что разборчивости достаточно.

В реальной встрече — недостаточно. Половина того, что передаёт встреча, — это кто говорит и как. Уберите голос — и вы превратили обсуждение в зачитываемую вслух стенограмму. Люди перестают реагировать друг на друга и начинают ждать своей очереди.

Что вместо этого делает InterMIND

Перевод работает как каскадный конвейер — три специализированные стадии последовательно, а не одна модель, пытающаяся сделать всё. Первые две стадии разобраны в посте о конвейерах; голосовой шаг — тема именно этого поста:

ASR — распознавание речи. Ваши слова транскрибируются на вашем языке, прямо в браузере, по мере того как вы говорите. (Локальное выполнение экономит сетевой round-trip и даёт минимально возможную задержку до начала перевода.)
MT — перевод. Транскрипт группируется в устойчивые фрагменты предложений — клаузы, — чтобы перевод мог начаться ещё до того, как вы закончили фразу, и каждый фрагмент прогрессивно переводится на язык слушателя.
Zero-shot TTS — синтез речи. Каждый переведённый фрагмент озвучивается обратно с использованием образца вашего собственного голоса и передаётся слушателю.

Именно третья стадия — ASR → MT → zero-shot TTS — даёт нужный эффект. «Zero-shot» означает, что системе не нужны предварительно записанные образцы или отдельная тренировочная сессия для вашего голоса. Она моделирует ваш голос по аудио той встречи, в которой вы уже находитесь.

Прогрев: как это так быстро начинает звучать как вы

В словах «использовать образец вашего собственного голоса» прячется проблема курицы и яйца. В самом начале звонка система ещё не услышала вас достаточно, чтобы хорошо смоделировать голос.

InterMIND решает это прогрессивным прогревом:

Примерно первые 5–10 секунд, пока ещё собирается достаточно вашей речи, каждый переведённый фрагмент синтезируется на основе аудиофрагмента, который соответствует тому, что вы только что произнесли на исходном языке. Озвучка привязана к вашей реальной, непосредственной речи.
Как только накопится достаточно длинный образец — та самая отметка в 5–10 секунд — система фиксируется на нём и использует его для озвучки всего последующего.

На практике вы не слышите момент переключения. Перевод звучит всё больше как вы по мере того, как разговор разгоняется — не идеальный двойник вашего голоса, но явно ваш, а не машинный, и улучшающийся по мере того, как модель слышит больше. Сочетание прогрессивного перевода (по клаузам, а не по предложениям) и прогрессивной озвучки — это то, что удерживает всё в рамках бюджета задержки и при этом сохраняет человеческое звучание.

Образец голоса нигде не хранится

Это то, о чём служба безопасности или юридический отдел спросят сразу же, поэтому излагаем прямо.

Образец голоса, используемый для синтеза, эфемерен. Он существует только в рамках живой конференц-сессии, чтобы озвучить перевод, и не хранится нигде. Mind API и SDK, на которых работает сессия в реальном времени, не сохраняют никаких данных — всё временное умирает, когда конференц-сессия заканчивается.

Стоит уточнить, чем этот образец не является: это не одна из функций записи InterMIND. Запись видео и аудио встречи — отдельное намеренное действие, которое вы совершаете осознанно, со своими собственными элементами управления. Образец собственного голоса — не запись, это временный вход для синтезатора речи, который не переживает звонок.

Это важно не только для гигиены приватности. «Говорите своим голосом» — ровно та функция, которая звучит так, будто должна предполагать хранение голосового отпечатка где-то. Нет, не предполагает. Честная версия — это и лучшая история: ваш голос моделируется в моменте и исчезает, когда вы кладёте трубку.

Почему этого нет у других

Дело не в том, что клонирование голоса — секрет. Дело в том, что делать это вживую, для каждого участника, в обе стороны, в бюджете меньше секунды, на 21 языке, ничего при этом не сохраняя — это другая задача, чем клонировать голос офлайн для подкаста.

Крупные платформы оптимизируют свой перевод под покрытие субтитрами и единый безопасный голос диктора — это дешёвый, надёжный вариант по умолчанию в масштабе. Сохранение собственного голоса каждого говорящего означает, что стадии синтеза приходится отслеживать каждого участника независимо и оставаться в том же бюджете задержки, что и весь остальной конвейер. Голосовой движок мы построили сами, на собственной инфраструктуре, — именно это даёт нам право делать такой компромисс. (Подробнее о том, почему движок — наш собственный код: Из чего собрана одна встреча в InterMIND.)

Куда это движется: lip-sync

Сохранение вашего голоса — это половина более крупной цели. Вторая половина — ваше лицо.

Сейчас вы слышите другого человека его собственным голосом, но если он перед камерой, его губы по-прежнему двигаются в такт словам, которые он реально произнёс — на языке, которого вы не понимаете. Следующий шаг — lip-sync: пересинхронизация губ говорящего под переведённый звук, чтобы на вашем экране он выглядел так, будто говорит на вашем языке.

Соедините эти две части — и весь смысл этой работы становится виден. Два человека, не имеющих общего языка, садятся за видеозвонок и видят и слышат друг друга так, будто каждый из них — носитель языка собеседника. Тот же голос, то же лицо, никакого переводчика посередине, никакого робота, зачитывающего скрипт.

Чтобы быть точными в статусе: голос работает уже сегодня; lip-sync — в дорожной карте, ещё не выпущен. Мы обозначаем конечную точку, потому что именно она объясняет, зачем нужна работа над голосом — перевод собственным голосом не самоцель, это первая половина «говорить с кем угодно, на любом языке, оставаясь собой».

Где это можно услышать

Перевод собственным голосом работает уже сегодня, на всех 21 голосовых языках — тех же, что перечислены в документации. Включать ничего отдельно не нужно: когда в встрече включён перевод, участники автоматически слышат друг друга их собственными голосами. Будем честны насчёт текущего состояния: сегодня голос уже узнаваемо ваш, и сходство — то, над чем мы активно работаем дальше. Послушайте и судите сами.

Попробовать демо — запускает живой голосовой конвейер на вашем аудио на любом из 21 языков.
Посмотреть цифры по качеству — тот же продакшен-конвейер, ежемесячно оцениваемый против FLORES-200, с полным распределением по каждой языковой паре.
Как это работает, в документации — краткая версия этого поста.

Переведённая встреча должна ощущаться как разговор тех людей, которые в ней действительно участвуют. Сохранение вашего голоса — это путь к этому.