[{"data":1,"prerenderedAt":-1},["ShallowReactive",2],{"blog-post-ru-/own-voice-translation":3},{"page":4,"surround":342},{"id":5,"title":6,"authors":7,"badge":10,"body":11,"date":331,"description":332,"extension":333,"heroOrder":334,"image":335,"meta":336,"navigation":337,"path":338,"seo":339,"stem":340,"__hash__":341},"blog_ru/blog/own-voice-translation.md","Говорите своим голосом — на языке, которого вы не знаете",[8],{"name":9},"The Mind.com Team","Architecture",{"type":12,"value":13,"toc":319},"minimark",[14,18,26,34,45,56,59,64,67,78,82,93,123,130,134,141,144,163,174,178,181,196,207,214,218,225,235,239,246,257,260,267,271,287,316],[15,16,6],"h1",{"id":17},"говорите-своим-голосом-на-языке-которого-вы-не-знаете",[19,20,21,22],"p",{},"Вот часть синхронного перевода, в которой почти все ошибаются и о которой почти никто не говорит: ",[23,24,25],"strong",{},"голос, который вы слышите.",[19,27,28,29,33],{},"Можно иметь отличное распознавание речи и отличный перевод — и всё равно получить встречу, которая ощущается как машина, зачитывающая список. Потому что последний шаг — превращение переведённого текста обратно в звук — это место, где большинство инструментов незаметно подменяют ",[30,31,32],"em",{},"вас"," единственным обобщённым синтетическим диктором. Восемь человек в комнате — один роботизированный голос на всех. Вы теряете того, кто говорит, теряете акценты, личность. Понятно, но это не разговор.",[19,35,36,37,40,41,44],{},"InterMIND делает последний шаг иначе. Когда вы говорите, остальные участники слышат перевод голосом, который ",[23,38,39],{},"узнаваемо ваш"," — с вашим тембром и манерой речи — но теперь произносящим слова на их языке. Это пока не идеальное подражание; смысл в том, что это ",[30,42,43],{},"вы",", а не стандартный диктор, и качество растёт. Это работает для каждого участника, в обе стороны, одновременно.",[19,46,47,48,55],{},"Этот пост — недостающая глава к ",[49,50,52],"a",{"href":51},"/blog/inside-the-translation-pipelines",[30,53,54],{},"Как устроены четыре конвейера перевода в InterMIND",": там объяснялось, как аудио становится переведённым аудио. Этот пост — о том, чьим голосом оно звучит на выходе.",[57,58],"hr",{},[60,61,63],"h2",{"id":62},"стандарт-который-выпускают-все-и-почему-он-плоский","Стандарт, который выпускают все, и почему он плоский",[19,65,66],{},"Если вы пользовались синхронным переводом в любой из крупных платформ для встреч, вы знаете этот звук. Нейтральный, ровный голос зачитывает перевод. Это один и тот же голос, говорит ли ваш CEO на общем собрании или коллега шутит. Под капотом — text-to-speech с одной фиксированной голосовой моделью, и заложенное допущение в том, что разборчивости достаточно.",[19,68,69,70,73,74,77],{},"В реальной встрече — недостаточно. Половина того, что передаёт встреча, — это ",[30,71,72],{},"кто"," говорит и ",[30,75,76],{},"как",". Уберите голос — и вы превратили обсуждение в зачитываемую вслух стенограмму. Люди перестают реагировать друг на друга и начинают ждать своей очереди.",[60,79,81],{"id":80},"что-вместо-этого-делает-intermind","Что вместо этого делает InterMIND",[19,83,84,85,88,89,92],{},"Перевод работает как ",[23,86,87],{},"каскадный конвейер"," — три специализированные стадии последовательно, а не одна модель, пытающаяся сделать всё. Первые две стадии разобраны в ",[49,90,91],{"href":51},"посте о конвейерах","; голосовой шаг — тема именно этого поста:",[94,95,96,103,113],"ol",{},[97,98,99,102],"li",{},[23,100,101],{},"ASR — распознавание речи."," Ваши слова транскрибируются на вашем языке, прямо в браузере, по мере того как вы говорите. (Локальное выполнение экономит сетевой round-trip и даёт минимально возможную задержку до начала перевода.)",[97,104,105,108,109,112],{},[23,106,107],{},"MT — перевод."," Транскрипт группируется в устойчивые фрагменты предложений — ",[30,110,111],{},"клаузы",", — чтобы перевод мог начаться ещё до того, как вы закончили фразу, и каждый фрагмент прогрессивно переводится на язык слушателя.",[97,114,115,118,119,122],{},[23,116,117],{},"Zero-shot TTS — синтез речи."," Каждый переведённый фрагмент озвучивается обратно ",[23,120,121],{},"с использованием образца вашего собственного голоса"," и передаётся слушателю.",[19,124,125,126,129],{},"Именно третья стадия — ASR → MT → ",[23,127,128],{},"zero-shot TTS"," — даёт нужный эффект. «Zero-shot» означает, что системе не нужны предварительно записанные образцы или отдельная тренировочная сессия для вашего голоса. Она моделирует ваш голос по аудио той встречи, в которой вы уже находитесь.",[60,131,133],{"id":132},"прогрев-как-это-так-быстро-начинает-звучать-как-вы","Прогрев: как это так быстро начинает звучать как вы",[19,135,136,137,140],{},"В словах «использовать образец вашего собственного голоса» прячется проблема курицы и яйца. В самом начале звонка система ещё ",[30,138,139],{},"не услышала"," вас достаточно, чтобы хорошо смоделировать голос.",[19,142,143],{},"InterMIND решает это прогрессивным прогревом:",[145,146,147,157],"ul",{},[97,148,149,152,153,156],{},[23,150,151],{},"Примерно первые 5–10 секунд",", пока ещё собирается достаточно вашей речи, каждый переведённый фрагмент синтезируется на основе аудиофрагмента, который соответствует тому, что вы ",[30,154,155],{},"только что произнесли"," на исходном языке. Озвучка привязана к вашей реальной, непосредственной речи.",[97,158,159,162],{},[23,160,161],{},"Как только накопится достаточно длинный образец"," — та самая отметка в 5–10 секунд — система фиксируется на нём и использует его для озвучки всего последующего.",[19,164,165,166,169,170,173],{},"На практике вы не слышите момент переключения. Перевод звучит всё больше как вы по мере того, как разговор разгоняется — не идеальный двойник вашего голоса, но явно ваш, а не машинный, и улучшающийся по мере того, как модель слышит больше. Сочетание ",[30,167,168],{},"прогрессивного"," перевода (по клаузам, а не по предложениям) и ",[30,171,172],{},"прогрессивной"," озвучки — это то, что удерживает всё в рамках бюджета задержки и при этом сохраняет человеческое звучание.",[60,175,177],{"id":176},"образец-голоса-нигде-не-хранится","Образец голоса нигде не хранится",[19,179,180],{},"Это то, о чём служба безопасности или юридический отдел спросят сразу же, поэтому излагаем прямо.",[19,182,183,184,187,188,191,192,195],{},"Образец голоса, используемый для синтеза, ",[23,185,186],{},"эфемерен",". Он существует только в рамках живой конференц-сессии, чтобы озвучить перевод, и ",[23,189,190],{},"не хранится нигде",". Mind API и SDK, на которых работает сессия в реальном времени, не сохраняют ",[23,193,194],{},"никаких данных"," — всё временное умирает, когда конференц-сессия заканчивается.",[19,197,198,199,202,203,206],{},"Стоит уточнить, чем этот образец ",[30,200,201],{},"не является",": это не одна из функций ",[23,204,205],{},"записи"," InterMIND. Запись видео и аудио встречи — отдельное намеренное действие, которое вы совершаете осознанно, со своими собственными элементами управления. Образец собственного голоса — не запись, это временный вход для синтезатора речи, который не переживает звонок.",[19,208,209,210,213],{},"Это важно не только для гигиены приватности. «Говорите своим голосом» — ровно та функция, которая ",[30,211,212],{},"звучит"," так, будто должна предполагать хранение голосового отпечатка где-то. Нет, не предполагает. Честная версия — это и лучшая история: ваш голос моделируется в моменте и исчезает, когда вы кладёте трубку.",[60,215,217],{"id":216},"почему-этого-нет-у-других","Почему этого нет у других",[19,219,220,221,224],{},"Дело не в том, что клонирование голоса — секрет. Дело в том, что делать это ",[23,222,223],{},"вживую, для каждого участника, в обе стороны, в бюджете меньше секунды, на 21 языке, ничего при этом не сохраняя"," — это другая задача, чем клонировать голос офлайн для подкаста.",[19,226,227,228,234],{},"Крупные платформы оптимизируют свой перевод под покрытие субтитрами и единый безопасный голос диктора — это дешёвый, надёжный вариант по умолчанию в масштабе. Сохранение собственного голоса каждого говорящего означает, что стадии синтеза приходится отслеживать каждого участника независимо и оставаться в том же бюджете задержки, что и весь остальной конвейер. Голосовой движок мы построили сами, на собственной инфраструктуре, — именно это даёт нам право делать такой компромисс. (Подробнее о том, почему движок — наш собственный код: ",[49,229,231],{"href":230},"/blog/what-one-intermind-meeting-is-built-from",[30,232,233],{},"Из чего собрана одна встреча в InterMIND",".)",[60,236,238],{"id":237},"куда-это-движется-lip-sync","Куда это движется: lip-sync",[19,240,241,242,245],{},"Сохранение вашего голоса — это половина более крупной цели. Вторая половина — ваше ",[23,243,244],{},"лицо",".",[19,247,248,249,252,253,256],{},"Сейчас вы слышите другого человека его собственным голосом, но если он перед камерой, его губы по-прежнему двигаются в такт словам, которые он реально произнёс — на языке, которого вы не понимаете. Следующий шаг — ",[23,250,251],{},"lip-sync",": пересинхронизация губ говорящего под переведённый звук, чтобы на вашем экране он выглядел так, будто говорит ",[30,254,255],{},"на вашем"," языке.",[19,258,259],{},"Соедините эти две части — и весь смысл этой работы становится виден. Два человека, не имеющих общего языка, садятся за видеозвонок и видят и слышат друг друга так, будто каждый из них — носитель языка собеседника. Тот же голос, то же лицо, никакого переводчика посередине, никакого робота, зачитывающего скрипт.",[19,261,262,263,266],{},"Чтобы быть точными в статусе: ",[23,264,265],{},"голос работает уже сегодня; lip-sync — в дорожной карте, ещё не выпущен."," Мы обозначаем конечную точку, потому что именно она объясняет, зачем нужна работа над голосом — перевод собственным голосом не самоцель, это первая половина «говорить с кем угодно, на любом языке, оставаясь собой».",[60,268,270],{"id":269},"где-это-можно-услышать","Где это можно услышать",[19,272,273,274,277,278,282,283,286],{},"Перевод собственным голосом ",[23,275,276],{},"работает уже сегодня, на всех 21 голосовых языках"," — тех же, что перечислены в ",[49,279,281],{"href":280},"/docs/translation/languages","документации",". Включать ничего отдельно не нужно: когда в встрече включён перевод, участники автоматически слышат друг друга их собственными голосами. Будем честны насчёт текущего состояния: сегодня голос уже узнаваемо ",[30,284,285],{},"ваш",", и сходство — то, над чем мы активно работаем дальше. Послушайте и судите сами.",[145,288,289,298,307],{},[97,290,291,297],{},[23,292,293],{},[49,294,296],{"href":295},"/demo","Попробовать демо"," — запускает живой голосовой конвейер на вашем аудио на любом из 21 языков.",[97,299,300,306],{},[23,301,302],{},[49,303,305],{"href":304},"/benchmark","Посмотреть цифры по качеству"," — тот же продакшен-конвейер, ежемесячно оцениваемый против FLORES-200, с полным распределением по каждой языковой паре.",[97,308,309,315],{},[23,310,311],{},[49,312,314],{"href":313},"/docs/translation/own-voice","Как это работает, в документации"," — краткая версия этого поста.",[19,317,318],{},"Переведённая встреча должна ощущаться как разговор тех людей, которые в ней действительно участвуют. Сохранение вашего голоса — это путь к этому.",{"title":320,"searchDepth":321,"depth":322,"links":323},"",2,3,[324,325,326,327,328,329,330],{"id":62,"depth":321,"text":63},{"id":80,"depth":321,"text":81},{"id":132,"depth":321,"text":133},{"id":176,"depth":321,"text":177},{"id":216,"depth":321,"text":217},{"id":237,"depth":321,"text":238},{"id":269,"depth":321,"text":270},"2026-06-13","Большинство инструментов синхронного перевода заменяют вас единственным роботизированным диктором. InterMIND сохраняет ваш голос: каждый участник слышит перевод голосом самого говорящего. Вот как это делает каскадный конвейер — и почему образец голоса нигде не хранится.","md",null,"/blog/own-voice-translation.svg",{},true,"/blog/own-voice-translation",{"title":6,"description":332},"blog/own-voice-translation","cKboDaYnoz9bk-cmLZD9LbI3bc5CeAdgvWBza6EC6OM",[343,349],{"title":344,"path":345,"stem":346,"description":347,"order":348,"children":-1},"Блог","/blog","blog/index","Последние новости и обновления от команды InterMIND.",8,{"title":350,"path":351,"stem":352,"description":353,"children":-1},"Перевод в реальном времени в Microsoft Teams: как это работает и где упирается в потолок","/blog/teams-live-translation","blog/teams-live-translation","Teams умеет переводить встречу в реальном времени тремя способами — переведёнными субтитрами, AI-агентом Interpreter и каналами для живых переводчиков. Что нужно для каждого, во что обходится и какие ограничения определяют, подходит ли это вашей встрече."]