Ваш собственный голос

Как InterMIND озвучивает перевод голосом каждого участника, а не синтетическим диктором.

Ваш собственный голос

Когда InterMIND переводит вашу речь для другого участника, он слышит не роботизированный синтезированный голос. Он слышит голос, который узнаваемо ваш — с вашим тембром и вашей манерой говорить — теперь произносящий слова на его языке.

Это работает в обе стороны и для каждого участника независимо. На встрече, где пять человек говорят на пяти языках, каждый слышит остальных четверых на своём языке, и каждый из этих четверых по-прежнему звучит как он сам.

Как это звучит

Большинство инструментов синхронного перевода заменяют говорящего одним обобщённым синтетическим голосом. Результат понятен, но плоский — теряется кто именно говорит, интонации, индивидуальность. InterMIND сохраняет голос говорящего, поэтому переведённая встреча ощущается как разговор между реальными людьми, а не как очередь объявлений, зачитанных машиной.

Как это работает

InterMIND использует каскадный конвейер, и этап голоса — последний:

Распознавание речи — ваши слова транскрибируются на вашем языке по мере того, как вы говорите.
Сегментация — транскрипт группируется в устойчивые фрагменты предложений (клаузы), чтобы перевод мог начаться ещё до того, как вы закончите фразу.
Перевод — каждый фрагмент постепенно переводится на язык слушателя.
Синтез голоса — каждый переведённый фрагмент озвучивается с использованием образца вашего собственного голоса и отправляется слушателю.

Пока встреча ещё собирает достаточно вашей речи, чтобы смоделировать ваш голос (примерно первые 5–10 секунд), синтез использует аудиофрагмент, соответствующий тому, что вы только что сказали на исходном языке. Как только образец становится достаточно длинным, система переключается на него для всего последующего. На практике переключение незаметно — перевод звучит всё больше похоже на вас по мере продолжения звонка. Это не будет идеальной имитацией вашего голоса, но узнаваемо вы, а не обобщённый диктор — и качество продолжает улучшаться по мере того, как модель слышит больше вашей речи.

Языки

Перевод с сохранением вашего голоса доступен для всех 21 голосовых языков — того же набора, что указан в разделе Выбор языков. Ничего отдельно включать не нужно: когда перевод включён, участники автоматически слышат вас вашим собственным голосом.

Приватность

Образец голоса, используемый для синтеза, эфемерен. Он существует только на время живой встречи и нигде не сохраняется — Mind API и SDK, обеспечивающие сессию в реальном времени, не хранят данных после завершения сессии конференции. Этот голосовой образец не связан с функциями записи видео и голоса InterMIND — это отдельные, явные записи, которые вы запускаете намеренно.

В планах: синхронизация губ

Слышать перевод собственным голосом — это первая половина более крупной цели. Следующий шаг, над которым мы работаем, — синхронизация губ: пересинхронизация движений рта говорящего на камере под переведённое аудио, чтобы каждый участник выглядел так, будто говорит на языке собеседника. В сочетании с переводом собственным голосом цель — звонок, в котором люди без общего языка видят и слышат друг друга так, будто каждый говорит на языке другого как родном.

Это пункт дорожной карты, а не уже выпущенная функция — перевод собственным голосом, описанный выше, доступен уже сегодня.

Хотите полную техническую картину? См. Говорите своим голосом — на языке, которым не владеете в блоге.

Лимиты использования

Лимиты времени перевода и как они работают в InterMIND.

Встречи и конференции

Все о видеовстречах в InterMIND — начало, присоединение и управление конференциями.