Техническое медиа Ferra.ru, входящее в состав Rambler Group, первым среди российских СМИ интегрировало в свои новости диджитал-телеведущую Елену от SberDevices. Созданная с помощью нейросетей, она может вести новостные сюжеты, используя только текст для генерации полноценного видеоизображения и речи, а также имитирует мимику и эмоции человека. Первый выпуск с участием Елены уже доступен на сайте Ferra.ru.
Елена — цифровой двойник телеведущей, созданный в 2019 году в Лаборатории робототехники Сбербанка с привлечением группы компаний ЦРТ, технологии которой обеспечивают синтез речи аватара. Его особенность — в использовании сложных нейросетевых моделей для непрерывной генерации речевого аудиосигнала по тексту. Это позволяет добиться плавности и выразительности искусственной речи, а благодаря мощному лингвистическому процессору прочтение текста выполняется со всеми нормами языка даже в сложных случаях.
Изображение Елены — тоже результат работы нейросетевых моделей, обученных на видеозаписях реального человека. Использование новейших исследований в области нейросетевой генерации видео позволяет добиться высокого уровня фотореалистичности персонажа и убедительного сходства с реальным человеком. Собственные разработки компаний экосистемы Сбербанка в этой области уже сейчас позволяют осуществлять одновременную генерацию и речи, и изображения виртуального персонажа.
«Первые аватары телеведущих, созданные и управляемые искусственным интеллектом, появились еще пару лет назад в Китае. За это небольшое время цифровые технологии сильно шагнули вперед, предоставив нам еще больше вариантов для их использования, — комментирует новость директор по развитию медиа Rambler Group Владимир Тодоров. — Для медиа сейчас одним из наиболее перспективных направлений является искусственный интеллект, который уже активно внедряется в издания Rambler Group, делая их еще более интересными и привлекательными для читателей. Так, совместно с компаниями экосистемы Сбербанка мы решили изменить привычную модель подачи информации на Ferra.ru: теперь новости издания можно не только читать, но и смотреть в исполнении прекрасного профессионала — цифрового аватара Елены. Она едва отличима от обычных людей: технологии максимально точно имитируют не только голосовую составляющую Елены, но и отражают человеческие эмоции, повторяют живую мимику».
«С момента старта проекта всеми участниками была проделана большая исследовательская работа. Следующий важный шаг — довести эти результаты до массового рынка и сформировать понятный рынку продукт. Очевидно, что это только начало пути: в исследовательской части еще очень много актуальных задач, связанных с генерацией фотореалистичных цифровых персонажей, моделированием качественной анимации тела (включая мимику лица и жесты) и различных стилей (одежда, прически, макияж). Отдельная большая задача — заставить такие технологии работать быстро, в идеале — в режиме реального времени. Это и есть главный фокус SberDevices сегодня, а проект с Ferra.ru — дебют Елены за пределами Сбербанка», — говорит руководитель управления разработки виртуальных персонажей SberDevices Николай Симон.
«Использование синтеза группы ЦРТ для диджитал-телеведущей — один из знаковых для нас проектов. По сравнению с предшествующей технологией (компилятивного синтеза), применение нейронных сетей позволило нам вывести качество генерируемой речи на новый уровень. С помощью гибких настроек мы привнесли целый пласт новых возможностей по ее управлению: естественное изменение темпа, тона речи, а также стиля прочтения текста. В ближайшем будущем подобная технология сможет еще точнее моделировать человеческие эмоции и в полной мере будет конкурировать с профессиональными дикторами. Кроме того, мы сделали свой синтез доступным не только в виде SDK для встраивания в конечное решение, но и из облака, предоставляя рынку еще больше возможностей», — считает генеральный директор группы компаний ЦРТ Дмитрий Дырмовский.
До сегодняшнего дня Елена присутствовала только во внутрикорпоративных коммуникациях Сбербанка. Развитием и поддержкой проекта занимается SberDevices.