«Это вопрос будущего» Как крупнейший российский банк конкурирует с Amazon и Google
11:49, 5 февраля 2021Фото: sberdevices.ruОсенью 2020 года Сбер провел масштабный ребрендинг и представил несколько новых продуктов. Среди них — приставка для телевизора SberBox и смарт-дисплей SberPortal. Мозгом и душой этих устройств стало семейство виртуальных ассистентов Салют, в которое включены целых три помощника — Афина, Джой и Сбер. «Лента.ру» пообщалась с директором по технологиям SberDevices Денисом Филипповым о том, как создавали Салют и зачем вообще большие компании работают над голосовыми помощниками.
«Лента.ру»: Давайте начнем с самого основного: зачем вообще крупные компании работают над умными ассистентами и голосовыми помощниками? Какой им от этого плюс и зачем это пользователям?
Денис Филиппов: На самом деле все зависит от компании. Если компания обладает огромным количеством сервисов, как Сбер, среди которых финансовые сервисы, онлайн-кинотеатр, музыкальный стриминг, доставка еды и так далее, а еще большая пользовательская база, возникает задача лаконично и понятно для пользователя доставить все это многообразие продуктов. Очевидно, есть много разных решений, одно из которых — построение платформы виртуального ассистента.
Достаточно посмотреть, что делают в США Amazon и Google, которые строят такие платформы. Все они состоят из трех компонентов. Первый — это сам персонаж и некий набор его ключевых навыков. Второй компонент — правильные дистрибуционные каналы, которые позволяют нарастить клиентскую базу. Ассистенты не живут в вакууме. Важно, чтобы помощник прорастал в мобильную платформу, в умные устройства, web, автомобили и так далее. А затем остается создать инструментарий для относительно понятного и прозрачного пути добавления новых сервисов и навыков. Выстроив эти три компонента, вы создаете платформу виртуального ассистента — или, другими словами, новый канал дистрибуции сервисов и услуг для конечного пользователя.
Удобство же для пользователя зависит от «поверхности», на которой этот ассистент запущен. Мы выделяем «мобильную поверхность», «поверхность умных устройств», «поверхность автомобиля» и так далее. Все зависит от конкретной ситуации: например, если пользователь находится дома, то умное устройство позволяет просто голосом или через тач-интерфейс сформулировать потребность, а задача ассистента — правильно подобрать тот сервис, который бы эту потребность закрыл.
А есть ли некий стандартный, изначальный набор голосовых команд, на которые должен реагировать ассистент и от которого все отталкиваются?
Эта область разработки виртуальных ассистентов еще находится на этапе раннего старта, хотя появилась около десяти лет назад. Поэтому все продукты в этом сегменте еще в поиске своего рецепта успеха, ищут способы стать полезными и пользователю, и разработчикам. Соответственно, базовые, «зашитые» навыки должны быть направлены на повышение частоты использования и на максимизацию пользы.
Какие это команды? Ну, разумеется, люди в основном спрашивают ассистента о погоде — так повелось. Это несложная вещь, но я бы записал ее в базовые навыки. Ассистент должен уметь делать напоминания, поставить таймер — это тоже базовая функциональность. Также к базовым навыкам я бы отнес наличие у ассистента определенного характера и свода правил, по которым он работает: как он отвечает, какая музыка ему нравится, шутит ли он с пользователем и так далее.
С развитием продукта мы начинаем работать над эмпатией, чтобы улучшать отношения между ассистентом и пользователем. Цель — переход от шаблона взаимодействия «заказчик — исполнитель» к более доверительным отношениям, чтобы пользователь видел в виртуальном помощнике настоящего ассистента, а не бездушную железку. В общем, мы мечтаем о том, что однажды между пользователем и ассистентом возникнет дружба.
Касательно последней части не могу не поднять классическую тему противников технологий: якобы с развитием ИИ и подобных ассистентов люди перестанут общаться с другими людьми, останутся лишь отношения с железками. Что вы об этом думаете?
Люди всю свою историю одушевляют какие-то значимые для себя вещи. Автомобиль — «моя ласточка», а это, в общем-то, просто большая железка. Но мы все равно ее как-то ласково называем и наделяем свойствами живых объектов.
На мой взгляд, одушевлять и иметь какие-то теплые отношения с предметами — нормально и в порядке вещей. Куда важнее другой вопрос: могут ли они в будущем заменить живое общение. Я в это не верю. Безусловно, более тесное взаимодействие людей с какими-то предметами станет нормой, но не заменит живого контакта друг с другом.
Взять, к примеру, кофе-машины: сейчас это устройства с кучей кнопок, рычажков и огромной инструкцией, которую нужно изучить перед тем, как приготовить кофе. А в будущем, я уверен, можно будет просто сказать: «Свари мне двойной эспрессо» — и кофе-машина вам его сделает. Причем это не только упрощение принципа взаимодействия, девайс вам еще и хорошего дня пожелает, создаст дополнительные положительные эмоции.
Вместе с тем нельзя забывать о немалом количестве одиноких людей, которым хочется с кем-то просто поговорить, — для них наши виртуальные ассистенты станут выходом, отдушиной на время. Но я всячески за то, чтобы человеческое общение было доступным, чтобы люди больше общались в реальной жизни.
Мы делаем технологию, которая позволяет вести диалог на разные темы, учитывая предпочтения пользователя. В данном случае я скорее проводил бы параллель с тем, как 20 лет мы браузили интернет с помощью поисковиков, и это было молчаливое общение человека с сетью. С развитием технологии оно будет перетекать в формат диалога, когда ассистент сам сможет находить интересную информацию и в режиме разговора вам ее показывать. И это не равно общению человека с человеком, это просто иной вариант взаимодействия.
Чем тогда голосовой ассистент отличается от обычной рекомендательной системы? Или это просто новая оболочка для нее?
Да, с одной стороны — так и есть, это новая оболочка для рекомендательной системы, но нужно понимать, какие свойства у этой оболочки. Может прозвучать как «ну просто обертка, что тут нового», а на самом деле это гораздо более сложная вещь.
Во-первых, это диалоговый интерфейс, который понимает контекст. Рекомендательная система опирается в основном лишь на то, что до этого смотрел или слушал пользователь. Помощник может опираться еще и на то, что именно говорит пользователь, задавать наводящие вопросы, чтобы предоставлять лучшие рекомендации. Например, вы смотрите фильм, на десятой минуте выключили и переключили на что-то другое. В этот момент может появиться ассистент и спросить: «Что, не понравилось?». Пользователю ничего не стоит ответить «да, что-то не то», но для системы это очень ценный сигнал. В обратной ситуации — если вы досмотрели фильм, и он вам понравился — система может спросить, что именно понравилось, что также улучшит качество ее работы.
При разработке виртуальных ассистентов Салют мы изначально поставили задачу создать уникального ассистента, который не просто копировал бы все то, что было раньше. Даже базовые команды вроде «установи таймер» ассистенты Салют могут исполнять нетривиально — например, засечь время, необходимое для прожарки стейка. Мы верим, что ассистенты с помощью диалогового общения смогут обогатить рекомендательную систему, сделать ее более точной в части выбора контента и поиска новой информации.
Далее есть несколько уровней развития виртуальных ассистентов по части их полезности. Первый уровень — реактивность, то есть вам нужно что-то сказать ассистенту, чтобы он с определенной вероятностью что-то сделал. Следующий уровень, о котором мы думаем, — это проактивность. Тут очень тонкая грань между полезностью и навязчивостью. Тем не менее проактивность в комбинации с хорошей рекомендательной системой может работать очень классно. Ассистент может знать, что вы обычно слушаете музыку в какое-то определенное время, и, предвосхищая ваш запрос, может сказать что-то в духе: «О, смотри, вышел новый релиз твоей любимой группы. Послушаем?». То же самое и с фильмами: ассистент может и должен знать, что вы вечерами смотрите фильмы или сериалы, и, предвосхищая запрос, задаст вопрос о выборе картины, когда пользователь идет домой.
Традиционные поиски с рекомендательными системами лишены способности быть проактивными, выяснять и учитывать характер поведения владельца для улучшения качества своей работы. На мой взгляд, быть в таком контакте с пользователем — ключевой фактор развития рынка. Поэтому крупные компании и развивают своих ассистентов.
Давайте вернемся от взгляда в будущее к более приземленным вопросам. Как выглядит разговор с ассистентом «под капотом» — что происходит внутри этой железки, когда к ней обращаются, какие системы работают и сколько там вообще нейросетей?
В этот процесс вовлечены десятки довольно сложных технологий, но я попробую на пальцах рассказать, как это работает. Чтобы было нагляднее, возьмем недавно вышедший на рынок SberPortal. Это не просто умная колонка, а целый мультимедийный центр с экраном, сенсорным управлением и камерой. Вот он стоит и ждет, когда я к нему обращусь. Для этого я должен сказать специальную команду, он реагирует на слово «Салют». Это уже работа очень сложной технологии keyword spotting, цель которой — выявлять из окружающего шума активационную фразу или слово.
Когда он слышит активационную фразу, он включает, скажем так, передачу звука в облако, где стоит сложная технология распознавания речи. Ее задача — весь звук, который я произношу, перевести в текст. Параллельно с этим работает модель определения эмоции, по голосу человека выявляющая его тональность, а также модель голосовой биометрии, определяющая, кто из пользователей обращается к устройству. Это первый этап обработки запроса.
Но даже когда у нас есть текст, обогащенный другими параметрами, машина все еще не понимает, что от нее хотят. Подключается другая система (NLP-платформа — Natural Language Processing), которая пытается из этого текста выжать смысл. На примере запроса «Какая сегодня погода в Москве» платформа выяснит тематику вопроса (погода), значимые объекты (локация и дата) и преобразует это в понятный машине запрос. Потом идем к провайдеру данных о погоде, запрашиваем требуемое и с помощью NLP преобразуем их в «человеческий» ответ. Получившийся текст отправляется на модуль синтеза речи, и готовая фраза отправляется обратно на устройство.
Это совсем простое описание процесса, есть много нюансов. Например, если пользователь продолжит диалог и спросит «А завтра?» — фраза в отрыве от контекста не будет иметь никакого смысла для машины. Поэтому система должна запоминать, о чем говорил пользователь ранее, и понимать, что этот вопрос относится именно к погоде в Москве. За это отвечает отдельная технология.
Насколько я знаю, внутри Сбера есть команда редакторов, которая работала над ассистентом. Они пишут ответы на самые распространенные вопросы и шутки? И если так — каков процент такого «ручного управления» помощником, когда он не сам генерирует ответ, а пользуется заготовками?
Есть персонаж или семейство персонажей, как в нашем случае, и у этого персонажа должен быть характер и набор правил, прописанное чувство юмора и стиль общения. Мы даже используем отдельное понятие «библия персонажа», где находится его описание: что ему нравится, что не нравится, чего он боится и так далее. С помощью одной только нейросети сложно контролировать целостность этого персонажа, поэтому мы прибегаем к помощи редакторов. Они задают «скелет» героя, ответы на базовые вопросы вроде «что тебе нравится», «откуда ты», «как тебя зовут» и прочее.
Далее включается нейросетевая модель, которая подбирает релевантные ответы. Этот процесс должен очень хорошо управляться, держать консистентность персонажа. Например, если ассистент женского пола и обращается к пользователю на ты, в ответах не должно быть официальных обращений или внезапного появления мужского рода. Как раз «воспитать» нейросети — самый важный процесс. Ведь они как малые дети — могут отвечать все что угодно, они ведь не знают, как принято в обществе .
Самый простой пример — мат. В сети его очень много, а нейросеть обучается в том числе на данных из интернета. Но мы не хотим, чтобы наши нейросети грубо ругались, а если этим не озаботиться — это произойдет практически моментально. Есть темы насилия, наркотиков, терроризма и так далее, люди их обсуждают в самых разных контекстах. Тем временем нейросеть, будучи этаким ребенком, все это принимает за хорошие ответы, поэтому может использовать непристойные или неуместные фразы без всякого злого умысла. Очевидно, многие пользователи сочтут это как минимум вызывающим, а кто-то — и оскорбительным.
Поэтому прилагается огромное количество усилий к созданию свода правил, чтобы нейросети оперировали в заданных рамках.
Вы говорите о разных персонажах и их историях. Чем отличаются Сбер, Джой и Афина? Они могут давать разные ответы на одинаковые вопросы или как-то формировать ленту на основе собственных предпочтений?
Наши ассистенты запустились не так давно, поэтому сейчас многие их ответы похожи. Ключевая идея в том, что пользователь может выбирать помощника на свой вкус, близкого ему по духу. И этот выбор дает нам достаточно сильный сигнал о том, что лучше соответствует конкретному пользователю. Наши персонажи кардинально отличаются: Афина — это партнер, можно сказать, бизнес-леди, которая держит дистанцию и разговаривает сдержанно; Сбер — гик, как мы еще называем, айтишник, который тоже соблюдает границы, но уже проще в общении; а Джой — сразу на ты и готова общаться на темы музыки, фильмов, тусовок.
В дальнейшем мы планируем обогащать их не только редакторскими фразами, но и немножко разной логикой. Вы правильно подмечаете — рекомендации со временем тоже будут подстраиваться. Джой больше ориентирована на запросы молодежи, Афина станет больше советовать классики, а Сбер — контент, связанный с технологиями.
То есть в будущем, в теории, может быть ряд вопросов, на которые один ассистент сможет ответить, а другой нет? Например, Афина сможет посоветовать, в какие бумаги вкладываться, а Сбер расскажет о новом айфоне?
Мы не хотели бы настолько фрагментировать продукт. Возможно, пример с ценными бумагами — не самый удачный, потому что все трое должны о них знать, но подавать под разным соусом. Один ассистент сразу разбирал бы доходность и риски, другой подавал информацию проще и перенаправлял на профильные сайты...
Но с точки зрения развлекательного контента они должны вести себя по-разному, составлять рекомендации под своим углом зрения.
Вы упоминали некую модель, которая способна оценивать настроение пользователя. Как это устроено и возможно ли весь спектр человеческих эмоций представить в виде математических формул, чтобы ИИ мог их понимать?
Это достаточно сложный вопрос. Можно, но с тем лишь значением, насколько человек может распознавать эмоции другого человека. Невозможно научить машину тому, чего сам человек нормально сделать не может. Эмоции — это сложнораспознаваемая материя, если, конечно, мы не говорим о совсем явных примерах, вроде радости с хохотом или злости с криком. Их машина распознает без проблем, как и нейтральное бурчание. Но когда мы говорим о сарказме, о негативе, который высказывается с улыбкой, о каких-то полутонах — их машине понять сложно. Люди распознают их по контексту.
Однако есть ряд научных работ, которые направлены на решение задачи обучить машину считывать сложные эмоции. Самое трудное — научить ИИ определять эмоции и желания пользователя, что называется, с полуслова. На мой взгляд, это наивысшая ступень развития голосовых ассистентов. Но и это вопрос будущего. Уверен, потенциал машинного обучения еще не раскрыт.
Раз уж мы вернулись к теме будущего, тогда вопрос следующий: куда вся эта отрасль ассистентов движется? Мы с вами много говорили о рекомендательной системе, но есть ли вероятность, что голосовые помощники заменят привычные интерфейсы, и с их помощью можно будет управлять всем вокруг, как мы сейчас это делаем с помощью клавиатуры и сенсорных экранов?
Когда я только начинал заниматься голосовыми ассистентами, еще в 2008 году, я мечтал заменить клавиатуру, мышку, пульты от телевизоров, потому что это буквально устройства из прошлого века. Сегодня у меня есть пульт от SberBox с отдельной кнопкой запуска микрофона, и он отлично решает свою задачу. В итоге я пришел к понимаю, что интерфейсы должны быть мультимодальными, не нужно пытаться что-то заменить, нужно пытаться что-то дополнить.
Вот есть у нас тач-интерфейс, графический интерфейс, голосовой интерфейс — все это отражения того, как люди познают мир: ребенок, когда только родился, он все трогает, пробует, начинает воспринимать визуальную информацию, а потом издавать какие-то звуки и говорить. Все эти интерфейсы должны быть представлены. У человека должна быть возможность и общаться голосом, и печатать сообщения, и нажимать пальцем, и видеть классную картинку. Поэтому мы сейчас развиваем концепцию мультиинтерфейсов.
Но если говорить о будущем, для меня оно лежит в другой области. Даже если появятся какие-то новые средства отображения информации, в том числе с подключением к мозгу, это будет не так важно, потому что это просто еще одна модальность. Для меня важнее то, как мы, люди, будем представлены в цифровом мире.
У меня была сумасшедшая идея: в будущем виртуальный ассистент может стать другом. В какой-то момент ассистент может заменить меня в цифровом мире, стать моим доверенным представителем там. Самое банальное — он бы мог отвечать на большинство звонков с рекламой, разгребать спам в почте без моего участия. А если предположить, что я могу этого ассистента наделить своим голосом, то мой цифровой двойник избавит меня от большого количества мусорной информации, донося до меня выжимку по итогам общения.
Это все — развитие идей, заложенных в Салют изначально. Наш ассистент так же помогает разгребать огромное количество контента, предоставляя пользователю самое полезное и, на его взгляд, интересное. И я готов всю эту рутину с поиском информации, изучением отзывов, выбором продуктов и прочим переложить на виртуального помощника, чтобы он за меня все это делал и давал мне готовый результат. Но все это — мои собственные фантазии.