Идеи, которые меняют жизнь
Как российские исследователи делают рекомендательные системы умнее
Рекомендательные системы давно перестали быть просто удобным функционалом — для многих цифровых сервисов они стали основой бизнеса. Но после лет стабильного развития эта область стоит на пороге революции, которую несет с собой генеративный искусственный интеллект. Команды российских исследователей и инженеров из «Яндекса» одними из первых в мире разработали и внедрили рекомендации нового поколения — ARGUS, способные анализировать тысячи действий пользователя, понимать контекст и предугадывать желания. Как эти системы меняют жизнь миллионов пользователей прямо сейчас и почему они скоро станут персональными ассистентами, предвосхищающими наши мысли? Об этом — в интервью «Ъ-Науки» с лидерами направления.
Александр Сафронов, руководитель службы рекомендаций Яндекс Музыки
Фото: из личного архива
Александр Сафронов, руководитель службы рекомендаций Яндекс Музыки
Фото: из личного архива
— В чем заключается основная задача вашей команды?
— Николай Савушкин, руководитель направления рекомендательных технологий «Яндекса»: Наша команда занимается развитием рекомендательных технологий для всех сервисов «Яндекса». Одно из приоритетных направлений — R&D (Research and Development), которое помогает развивать трансформерные технологии в контексте рекомендательных систем.
Не так давно у нас произошел новый виток в развитии рекомендательных технологий: наша команда разработала авторегрессионную трансформерную модель ARGUS (AutoRegressive Generative User Sequential Modeling) — новое поколение рекомендательных систем на базе генеративных моделей, способных учитывать сложные последовательности событий, контексты и многокомпонентный фидбек пользователя.
— Александр Сафронов, руководитель службы рекомендаций «Яндекс Музыки»: Мы занимаемся алгоритмами «Яндекс Музыки», в первую очередь персональными рекомендациями. Пожалуй, самой главной функцией сервиса можно считать «Мою волну», которая представляет собой бесконечный музыкальный поток, который подстраивается под предпочтения пользователей. Наша задача состоит в том, чтобы с помощью машинного обучения улучшать качество этого потока. Это означает, что мы должны хорошо угадывать вкусы пользователя, быстро реагировать на изменение его настроения, думать о разнообразии, серендипности, новизне и массе других вещей. Восприятие музыки связано с эмоциональной сферой и очень субъективно, что делает нашу задачу особенно сложной.
— Тим Алексеевский, руководитель службы разработки рекомендаций «Яндекс Маркета»: Мы строим ИТ-систему, которая с помощью алгоритмов подбирает для человека именно те товары, которые потенциально ему интересны.
— Как рекомендательные системы изменились за последние годы?
— Николай Савушкин: Существенная часть интернета сегодня построена на рекомендательных системах. Они есть в социальных сетях, стриминговых сервисах, e-commerce-платформах. Более того, для некоторых проектов рекомендации — это не просто полезная функция, это фактически весь их бизнес. Например, сервисы коротких видео, такие как TikTok, целиком зависят от того, сколько пользователей они привлекут, как долго удержат их у экрана — это невозможно без хороших рекомендаций.
В последние годы технологии, на которых построены рекомендательные системы, вышли на плато развития, но сейчас это начинает меняться. Одна из главных причин — генеративный искусственный интеллект, о котором мы сейчас так много слышим. Генеративные модели уже сильно повлияли на разные продукты (например, сервисы для генерации текста, создания изображений, видео и аудио), и теперь аналогичные изменения зарождаются в нашей области. Поскольку рекомендательные системы составляют основу многих бизнесов, я уверен, что скоро многие пользователи заметят глобальные изменения в этой сфере.
— Александр Сафронов: Есть несомненный прогресс в области рекомендательных систем. На мой взгляд, он в значительной степени обуславливается увеличением объемов доступных данных. «Яндекс Музыка» — это крупнейший в России подписной музыкальный сервис. И это создает простор для применения более мощных и выразительных моделей. Стали появляться архитектуры, способные эффективно обучаться на больших датасетах. И здесь нужно отметить обогащение рекомендательных систем методами, исходно разработанными для обработки текста. Сильно упрощая, можно сказать, что раньше рекомендательные системы основывались преимущественно на алгоритмах матричного разложения, которые воспринимали действия пользователя как некий набор неупорядоченных событий. А успехи последних лет связаны с применением в рекомендациях глубоких нейронных сетей, способных эффективно обрабатывать последовательности событий, подобно тому, как современные большие языковые модели обрабатывают последовательности слов. Мы впервые интегрировали в рекомендации «Яндекс Музыки» глубокие нейронные сети в конце 2023 года. И подобно тому, как YandexGPT пытается «понять» смысл текста, рекомендации «Моей волны» пытаются понять логику последовательности треков, которые понравятся пользователю.
— Тим Алексеевский: Произошел переход на новые алгоритмы. Современные архитектуры нейросетей заметно эффективнее в решении задач рекомендаций и постепенно стали занимать большую часть стека рекомендательных систем.
— В чем ключевое отличие нового поколения рекомендательных систем от предыдущего и какие задачи рекомендации на основе генеративных моделей решают лучше традиционных алгоритмов?
— Николай Савушкин: Исследователи «Яндекса» разработали рекомендации нового поколения на основе больших генеративных моделей. Мы одними из первых в мире показали, что можно сделать такую большую модель с такой большой длиной истории для музыкальных рекомендаций.
Рекомендательные алгоритмы на основе больших генеративных моделей быстрее обучаются, учитывают в несколько раз более длинную историю действий пользователя и неочевидные взаимосвязи между этими действиями, заметно повышая качество персонализации. Они работают в режиме реального времени и мгновенно реагируют на действия пользователей, но с учетом большего количества параметров.
Новые рекомендации анализируют в несколько раз более длинную историю действий пользователя и находят взаимосвязи между ними — в том числе неочевидные. Алгоритмы лучше определяют, как меняются потребности с течением времени. Например, если каждое лето человек покупает теннисные мячи одной и той же фирмы, они напомнят ему об этом, когда придет время.
— Генеративные модели уже давно применяют в других областях — например, в обработке естественного языка. Почему в рекомендательные системы их начали интегрировать сравнительно недавно?
— Николай Савушкин: Генеративные модели давно стали основным инструментом для обработки естественного языка, потому что там проще создавать большие обучающие выборки из текстов и строить универсальные последовательности информации — это удобно для нейросетей вроде трансформеров. В рекомендательных системах все намного сложнее: приходится иметь дело с данными разного типа (история действий, новые товары и пользователи, разные виды обратной связи), и при этом реакция на рекомендации должна быть практически мгновенной. Большие трансформеры долгое время было сложно и слишком дорого использовать в этой сфере.
Ситуация изменилась с появлением новых технических решений и архитектур. Сейчас стало возможным обучать гигантские модели на длинных последовательностях пользовательских действий, учитывать сложную обратную связь и масштабировать вычисления под индустриальные задачи.
Николай Савушкин, руководитель направления рекомендательных технологий Яндекса
Фото: из личного архива
Николай Савушкин, руководитель направления рекомендательных технологий Яндекса
Фото: из личного архива
Еще одна важная причина замедленного внедрения генеративных моделей — дефицит больших и качественных открытых датасетов для обучения и тестирования алгоритмов. Коммерческие решения обычно используют терабайты данных, недоступных исследовательскому сообществу. Но коммерческие платформы редко публикуют данные из-за их бизнес-ценности, что вынуждает исследователей использовать устаревшие и небольшие наборы данных. Модели, обученные на маленьких датасетах, часто теряют эффективность при масштабировании. Это создает разрыв между академическими исследованиями и потребностями бизнеса. Недостаток опенсорс-инструментов сдерживал переход рекомендательных систем на генеративные модели.
Чтобы рекомендации не отставали от других областей (например, LLM), нам необходимо серьезно интегрировать академические усилия и бизнес. Мы уже делаем первые шаги и разрабатываем планы для более тесного сотрудничества. В «Яндексе» разработчики рекомендательных технологий очень много занимаются исследованиями, поэтому в мае 2025 года мы решили сделать свой вклад в решение этой проблемы и выложить в опенсорс наш датасет Yambda, созданный на основе обезличенных данных «Яндекс Музыки» — крупнейшего подписного музыкального сервиса в России. Ученые, исследователи и вузы со всего мира могут использовать его для оценки качества и улучшения любых рекомендательных систем, так как в их основе лежат общие алгоритмы. Датасет представлен в трех вариантах: полная версия содержит 5 млрд событий, уменьшенные — 500 млн и 50 млн. Разработчики и исследователи выбирают тот вариант, который отвечает их задаче и имеющимся вычислительным ресурсам. С момента релиза Yambda уже скачали более 50 тыс. раз, а научная статья о датасете была принята на крупнейшую международную конференцию по рекомендательным системам — ACM RecSys. В сентябре мы представим научную работу перед инженерами и исследователями рекомендательных систем со всего мира в Чехии и надеемся, что датасет станет одним из часто используемых инструментов в научных исследованиях.
— Рекомендации на основе генеративных моделей позволяют находить неочевидные взаимосвязи между действиями пользователей. Как модель понимает, что может понравиться человеку, а что — нет?
— Николай Савушкин: Как большие языковые модели видят взаимосвязи между словами в тексте, так и рекомендации на базе генеративных моделей видят взаимосвязи между действиями пользователя, что позволяет им давать неочевидные, но востребованные рекомендации.
Тим Алексеевский, руководитель службы разработки рекомендаций Яндекс Маркета
Фото: из личного архива
Тим Алексеевский, руководитель службы разработки рекомендаций Яндекс Маркета
Фото: из личного архива
Во-первых, теперь мы смотрим целиком на всю анонимизированную историю пользователя — не только на положительные взаимодействия, но и на все остальные, в том числе отрицательные. А еще добавляем сущность контекста взаимодействия: в какое время оно происходило, на каком устройстве был пользователь, на какой страничке продукта, какие были настройки «Моей волны» и т. д. Например, для музыкальных рекомендаций контекст очень важен: настроение пользователя, его текущая ситуация сильно влияет на то, какую музыку он хочет послушать.
Во-вторых, глядя на историю, текущий контекст и айтем, мы предсказываем фидбек пользователя. Фидбек может быть многокомпонентный: был ли лайк, дизлайк, добавление в плейлист, какая доля трека была прослушана. Мы предсказываем все типы фидбека. Несмотря на то что какой-то фидбек встречается гораздо чаще другого (как правило, лайков гораздо меньше, чем долгих прослушиваний), модель хорошо учится предсказывать все сигналы. Чем больше модель, тем проще ей учиться сразу на все задачи без конфликтов. Более того, частый фидбек (прослушивания), наоборот, помогает модели научиться моделировать редкий, разреженный фидбек (лайк).
— Тим Алексеевский: По сути, любая рекомендация — это модель поведения пользователя, которая прогнозирует его будущие действия. В нашем случае — речь о взаимодействиях с товарами. Генеративные нейросети, опираясь на историю действий человека, предсказывают, какие шаги он сделает дальше, и, подобно тому, как они создают тексты, в рекомендациях такие модели демонстрируют тоже хорошую эффективность. Такие же принципы мы планируем внедрять в ИИ-ассистенте «Маркета».
— Какие данные используются для обучения моделей? Как обеспечивается их приватность и безопасность?
— Николай Савушкин: Для обучения моделей используются исключительно агрегированные и анонимизированные данные: из них удаляются любые персональные сведения, по которым можно установить личность пользователя, а вся история действий обезличивается и кодируется. Индивидуальные взаимодействия объединяются в большие обезличенные последовательности событий.
— Тим Алексеевский: Мы учитываем поисковые запросы, просмотры товаров, добавления в корзину, отметки «избранное» и сделанные заказы. При этом система не знает пользователя по имени, но улавливает его паттерны поведения и вкусы, формируя персонализированный поток идей и подборок. Такой формат работает не только тогда, когда человек приходит за конкретной покупкой, но и когда он просто хочет «посмотреть» и вдохновиться. Именно поэтому рекомендательные ленты становятся больше чем просто списком товаров: они превращаются в витрину, которая чувствует настроение и подсказывает то, что действительно может оказаться нужным.
— Александр Сафронов: Самая полезная информация для музыкальных рекомендаций содержится в истории прослушиваний пользователя. Другими словами, хорошо работают алгоритмы, которые анализируют то, что пользователь слушал раньше, какие треки он лайкал, а какие пропускал. А внешний контекст вроде погоды, географического местонахождения и прочего не особенно помогает улучшать рекомендации. Я объясняю это тем, что музыкальный опыт имеет принципиально субъективную, внутреннюю природу. Поэтому алгоритмы «Моей волны» преимущественно отталкиваются от действий, которые пользователи совершают непосредственно в самом сервисе «Яндекс Музыка».
— С какими сложностями вы столкнулись при разработке нового поколения рекомендаций?
— Николай Савушкин: Во-первых, нам нужно было научиться эффективно обучать модели огромного размера — до миллиарда параметров. Подобное масштабирование раньше редко применялось в рекомендациях из-за опасений по поводу затрат ресурсов, переобучения и отсутствия доказанного эффекта. К тому же мы столкнулись с техническими сложностями: чтобы модель лучше понимала интересы пользователей, ей требовалось учитывать намного больше прошлых действий каждого человека — не десятки, а тысячи событий в истории, что увеличивает нагрузку на вычисления в разы.
Вторая большая проблема — необходимость одновременно обрабатывать разные типы пользовательских реакций, например лайки, пропуски или время прослушивания. Обычные подходы часто смотрят только на то, что понравилось, но для качественных рекомендаций нужно анализировать гораздо больше сигналов. Мы решили эту задачу, обучая модель сразу на нескольких задачах: как предсказывать следующую рекомендацию, так и реакцию пользователя на нее. Плюс мы значительно оптимизировали инфраструктуру, ведь для обработки настолько больших моделей и массивов данных понадобились специальные решения для распределенного обучения и хранения информации.
В итоге, несмотря на эти сложности, нам удалось не просто «поднять» масштаб модели и объем контекста пользователя, но и добиться ощутимых улучшений: рекомендации стали более точными и персональными. Это мы подтвердили и на реальных данных в «Яндекс Музыке» и «Маркете».
— Александр Сафронов: Помимо исследовательской сложности интеграция ARGUS в «Яндекс Музыку» имела целый ряд технических вызовов. Для того чтобы внедрить подобную модель на сервисе, работающем под высокой нагрузкой, необходимо уметь эффективно ее применять и дообучать. Специфика рекомендаций «Моей волны» состоит в том, что для нас очень важна адаптивность. Наши рекомендации должны быть очень чувствительны к изменению настроения пользователя, должны уметь подстраиваться на лету — сразу после очередного лайка или скипа, а не на следующий день. Но ARGUS — весьма тяжелая модель, применение которой требует серьезных вычислительных ресурсов. Поэтому мы в «Яндекс Музыке» создали отдельный большой проект под названием Runtime ARGUS. В нем мы должны были решить следующую задачу: взять историю событий пользователя (включая самые последние, произошедшие секунды назад), применить к ним ARGUS и успеть посчитать результат настолько быстро, чтобы пользователю не пришлось ждать появления следующего трека в «Моей волне», чтобы все происходило в режиме реального времени. В результате мы разработали отдельный сервер для быстрого применения подобных моделей на GPU. Это потребовало решения ряда нетривиальных технических задач, но в итоге все получилось. «Яндекс Музыка» стала первым сервисом «Яндекса» не только внедрившим ARGUS, у нас модель работает в режиме реального времени (Runtime ARGUS).
— Как вы измеряете эффективность рекомендаций? Какие метрики наиболее важны?
— Николай Савушкин: Внедрение ARGUS заметно улучшило рекомендации. В разных сервисах мы используем разные метрики, которые позволяют нам замерять эффективность новых рекомендаций. Так, в «Яндекс Музыке» люди стали чаще и дольше слушать «Мою волну», где звучат только рекомендованные треки, и на 20% чаще добавлять в коллекцию песни и артистов, которых услышали впервые. Разнообразие самих рекомендаций выросло на 14% — в них стало больше новых для людей треков.
В «Яндекс Маркете» пользователи стали добавлять в корзину на 3% больше товаров, которые они видели в рекомендациях, а покупки товаров из лент в новых категориях выросли на 5%.
— Есть ли какие-то риски того, что алгоритмы начнут «слишком хорошо» понимать человека?
— Николай Савушкин: Это во многом философский вопрос. На самом деле современные рекомендательные алгоритмы, в том числе и те, которые мы создаем, работают исключительно с обезличенными данными: числовыми идентификаторами пользователей и объектов, а также статистикой действий (что слушали, что пролистали, где поставили лайк и т. д.). Модели не имеют доступа к личным мыслям, мотивам или эмоциональному состоянию человека — они способны находить лишь поведенческие закономерности на больших массивах безличных данных.
Да, с ростом размеров моделей и продвинутых архитектур рекомендательные системы действительно становятся лучше в улавливании длинных и тонких поведенческих паттернов. Однако все прогнозы строятся по принципу «прошлое поведение пользователя — лучший предсказатель следующего действия». Модель не «понимает» человека в буквальном смысле: она лишь анализирует цифровой след, оставляемый в сервисе.
Теоретически по мере развития технологий рекомендательные системы действительно могут стать настолько тонкими, что будут подсказывать желания буквально до того, как человек их осознал. Но это больше область научной фантастики, чем реалии сегодняшнего дня.
— Чему можно поучиться у глобальных игроков вроде Spotify и Netflix. А чему, наоборот, они могли бы поучиться у российских ученых?
— Николай Савушкин: В индустрии рекомендательных систем существуют две ведущие школы мысли, отраженные в подходах таких компаний, как Spotify, Netflix, Meta (признана экстремистской и запрещена в РФ) и Google. Одна из ключевых методологических дискуссий — как представлять взаимодействие пользователя с контентом: как отдельные токены для действия, объекта и контекста либо объединять их?
Команда «Яндекса» развила идею о раздельном учете контекста, объекта и действия, превращая каждый из них в отдельный токен. Это позволяет более гибко и точно учитывать нюансы поведения пользователя и особенности объектов, которые в рекомендациях представляют собой сложные структуры.
Западные платформы используют разные подходы: например, в Meta (признана экстремистской и запрещена в РФ) делают ставку на коллаборативные методы, когда каждый объект становится отдельным токеном в огромном словаре, что порождает значительные инфраструктурные сложности. Google больше ориентируется на контентный подход и иерархическую кластеризацию, разбивая объекты сразу на несколько токенов по разным признакам.
У каждого из подходов есть свои плюсы и минусы, и в нашей работе мы используем комбинацию этих идей, экспериментируя с обоими направлениями и стремясь найти оптимальный баланс между точностью и практичностью внедрения.
— В какую сторону вы планируете развивать рекомендательные системы в будущем?
— Николай Савушкин: Наш ключевой вектор развития — это масштабирование архитектуры ARGUS на все сервисы «Яндекса». Следующий этап — переход к полностью генеративным рекомендациям. Если сегодня даже самые продвинутые алгоритмы лишь используют элементы генеративных моделей внутри сложных сценариев ранжирования, то в будущем мы стремимся к тому, чтобы сама логика рекомендаций стала генеративной: система будет на лету формировать новые, уникальные предложения прямо под пользователя и ситуацию.
Еще одно важное направление — внедрение методов обучения с подкреплением (Reinforcement Learning, RL). Эти методы позволят рекомендательной системе не просто подстраиваться под текущие вкусы, но и формировать долгосрочно разнообразные пользовательские траектории. Мы рассчитываем, что сочетание масштабных моделей, генеративных подходов и RL поможет решить ряд сложных задач отрасли — например, преодолеть «информационный пузырь» и повысить реальную ценность рекомендаций для пользователя.
— Как будут выглядеть рекомендательные системы будущего?
— Николай Савушкин: Мы считаем, что рекомендательные системы будущего станут по-настоящему мультимодальными. Это означает, что они смогут интегрировать и сопоставлять разные виды данных — текст, звук, изображения, видео, поведенческие паттерны — и использовать для анализа сильные стороны больших языковых моделей (LLM) в сочетании с классическими подходами из мира рекомендательных систем. Объединение этих технологий позволит понимать пользователя глубже: находить сложные связи между событиями из разных сфер его жизни и оперативно подстраиваться под изменения интересов.
В таких системах граница между рекомендациями и персональными ассистентами исчезает. Например, чат-бот сможет не только предлагать фильмы или музыку, но и обсуждать с человеком его вкусы, договариваться о планах и советовать новое на основе многомерного профиля интересов. Со временем рекомендации приобретут эмерджентные свойства: смогут предугадывать потребности и состояние пользователя, удивлять его новыми вариантами, обеспечивать настоящий баланс между привычным контентом и открытиями.
При этом наша главная цель — чтобы такие рекомендации были по-настоящему полезными, ненавязчивыми и действительно помогали людям находить важное, расширять кругозор и поддерживать качество жизни, при этом оставаясь для пользователя безопасными и максимально прозрачными.