VK внедрила технологии рекомендаций на базе ИИ
VK внедрила в свои продукты технологии рекомендаций на базе искусственного интеллекта — кросс-форматной контентной модели и мультимодальной языковой модели, сообщили Forbes в пресс-службе компании. В VK не раскрыли сумму инвестиций в разработку новых решений. Источник Forbes в крупной российской IT-компании оценил затраты не более чем в 500 млн рублей
VK внедрила в свои продукты технологии рекомендаций Discovery, созданные на базе искусственного интеллекта (ИИ) — кросс-форматной контентной модели и мультимодальной языковой модели, сообщили Forbes в пресс-службе компании.
Кросс-форматная контентная модель анализирует название, обложку, аудио- и видеоряд ролика по отдельности и объединяет все данные, что позволяет рекомендательной системе «понимать», о чем этот контент. Например, такая модель может предложить похожий ролик в VK Видео на основе понравившегося поста «ВКонтакте» или короткого видео в VK Клипах.
Мультимодальная языковая модель (MMLM) сравнивает контент по смыслу и тематике, в том числе учитывает эмоциональный тон материалов. Нейросеть может анализировать видео, изображения, тексты и аудио, благодаря ей алгоритмы быстрее показывают новый контент без необходимости получения первых пользовательских реакций. Рекомендательная система также автоматически распознает известных персон на видео, чтобы пользователи могли чаще видеть контент с ними.
«Новые технологии Discovery за первые месяцы после внедрения помогли увеличить число позитивных реакций на контент на 7%, а рекомендации похожих по смыслу видео стали на 60% точнее», — отметил руководитель направления рекомендаций AI VK Андрей Зимовнов.
В VK не раскрыли сумму инвестиций в разработку новых решений. Источник Forbes в крупной российской IT-компании оценил затраты не более чем в 500 млн рублей, с ним согласен главный инженер компании «Рокет Контрол» Павел Приходько, который также оценил стоимость такой разработки примерно в 400-500 млн рублей.
«Сегодня мультимодальность меняет не только рекомендательные системы, но и архитектуру ИИ в целом. Ограничение ИИ только текстом или цифрами отсекало значительную часть реальных сценариев. Мультимодальные модели уже способны анализировать видео, звук и текст, распознавать объекты и эмоции, более точно улавливать контекст. Благодаря этому рекомендации становятся быстрее, точнее, «нюанснее» и действительно персональными, а не рассчитанными на похожую аудиторию», — пояснил он.
По словам Приходько, такие системы запоминают стиль, обращают внимание на то, что и когда человек снимает, показывает, пишет, и адаптируются к его образу жизни. «В дальнейшем они смогут формировать для пользователя действительно персональный опыт: не просто предлагать контент, а создавать его с нуля или корректировать как человек хочет, опираясь на его предпочтения», — подчеркнул он.
Руководитель команды рекомендаций «Авито» Михаил Каменщиков рассказал Forbes, что рекомендательные системы опираются на действия пользователей: лайки, просмотры, время просмотра. По этим сигналам система понимает, какой контент интересен аудитории и находит похожие материалы. Однако для нового контента есть проблема холодного старта: система не рекомендует его, пока нет первых реакций, а реакций нет, потому что его не видят новые пользователи. «Контентные модели решают эту проблему – они анализируют смысл контента напрямую через видеоряд, текст и аудио, поэтому система сразу понимает тематику и может показать материал нужной аудитории без первых сигналов», — сообщил он.
По мнению Каменщикова, масштаб инвестиций выглядит реалистично, так как для разработки таких систем нужна серьезная серверная инфраструктура, команда опытных специалистов, требуются большие затраты на обучение моделей на миллионах примеров и эксперименты, а также большие мощности для их эксплуатации при десятках миллионов пользователей. Отдельной задачей становится обеспечение высокой скорости работы — персональная рекомендательная лента должна обновляться мгновенно.
«Технологии глубокого понимания контента уже применяются на рынке, в том числе в России. Команда «Авито» тоже использует контентные рекомендации для объявлений, проводит разные исследования с использованием визуального контента. Они помогают нам растить сделки на платформе. С главной страницы рекомендаций, которые формируются нашими алгоритмами, идет более половины всех просмотров объявлений, а также более 50% сделок происходит благодаря рекомендациям. Ценность подхода VK – в адаптации под специфику платформы, интеграции в существующую архитектуру, обучении на разнообразном контенте и масштабировании на большую аудиторию», — добавил он.
Руководитель направления рекомендательных систем «Т-Технологий» Марина Ананьева отметила, что все крупные компании сейчас анализируют контент и строят рекомендации не только на основе пользовательских действий, но и с учетом содержания объектов рекомендаций. «Система построена на мультимодальных моделях, трансформерах и технологиях компьютерного зрения — такие комплексные подходы сейчас используются все чаще, а основные эффекты достигаются за счет обучения на больших внутренних датасетах. Например, в «Пульсе» (социальная сеть Т-Банка) в мобильном приложении мы учитываем не только тексты, но и изображения, а в рекомендациях товаров в сервисе «Город» также анализируем текстовые описания товаров, что позволяет повышать качество и точность рекомендаций», — пояснила Ананьева.
В июне Forbes узнал, что «Яндекс» внедряет в свои сервисы рекомендательные системы на основе генеративных моделей. Помимо «Яндекс Музыки», их успешно интегрировал «Маркет», а в перспективе их получат все сервисы «Яндекса», где есть такие алгоритмы, — в частности, «Кинопоиск» и «Лавка». В компании заявили, что это повысит качество персональных рекомендаций и, соответственно, увеличит использование. По словам экспертов, исследователям «Яндекса» удалось реализовать технически очень сложную задачу, которая под силу только нескольким компаниям в мире вроде Google, Netflix или LinkedIn.
