Голодные алгоритмы

Как развиваются рекомендательные системы в условиях дефицита данных

Рекомендательные системы лежат в основе многих онлайн-сервисов, которыми пользуются миллионы людей,— от маркетплейсов до онлайн-кинотеатров. При этом их дальнейшее развитие напрямую зависит от научных исследований и наличия больших и разнообразных массивов данных, встретить которые в открытом доступе в нужном качестве и объеме — редкость. Что происходит в направлении сейчас и какова роль академии, государства и бизнеса в развитии систем рекомендательных алгоритмов, мы обсудили с экспертами индустрии и академии.

Фото: Getty Images

Фото: Getty Images

Что препятствует развитию рекомендательных алгоритмов

Алгоритмы рекомендаций анализируют поведение пользователей в сервисе и на этой основе делают предположения о том, что им может понравиться. В маркетплейсе такими действиями могут быть клики и покупки, в онлайн-кинотеатре — просмотры и оценки фильмов, в соцсетях — время, проведенное над постом или видео. Алгоритмы есть почти в каждом массовом сервисе. Однако чтобы они смогли правильно интерпретировать действия пользователей внутри конкретной площадки и стать точнее, им нужно перед этим натренироваться на уникальных и разнообразных массивах сторонних данных — датасетах.

В отличие от других областей — например, медицины или лингвистики, где для модели можно собрать корпус данных из готовых изображений или текстов,— для рекомендательных систем нужны именно детализированные записи о поведении пользователей. Чтобы воспроизвести настоящее взаимодействие с сервисом, недостаточно простых или синтетических данных (искусственно созданных и основанных не на реальном поведении пользователей). Как отмечает Евгений Фролов, PhD, руководитель группы «Технологии персонализации» Института AIRI, роль индустриальных данных для развития рекомендательных систем фундаментальна. «Наука здесь просто не может продвигаться без обширного, репрезентативного и разнообразного материала, сформированного в реальных сервисах. Все основные наборы данных, с которыми работают исследователи, происходят именно из индустрии. Сгенерировать эффективные полностью синтетические датасеты невозможно. Одно время была очень популярна тема так называемых симуляторов рекомендательных систем, но пока их предсказательная способность крайне ограниченна»,— отмечает эксперт.

«Развитие алгоритмов рекомендаций напрямую зависит от научных исследований, для которых нужны качественные и объемные датасеты. При этом опенсорс-датасеты чаще всего невелики по размеру или уже устарели, так как коммерческие компании, которые накапливают терабайты данных, редко их публикуют.

Это создает разрыв между академическими исследованиями и потребностями бизнеса»,— рассказывает Александр Плошкин, руководитель направления по развитию качества персонализации «Яндекса».

«В то же время там, где появляются качественные и доступные наборы данных, возникают новые продукты и услуги на их основе. Высокий спрос подтверждает, что такая практика — отличный фундамент для инновационных решений. Поэтому для ускорения развития отрасли необходимо снимать барьеры и создавать стимулы для обмена данными»,— прокомментировали в пресс-службе Ассоциации больших данных.

Коллаборация академии и бизнеса как ключ к развитию индустрии

Для устранения дефицита важна коллаборация бизнеса и науки, где каждому будет отведена правильная роль. Первые обладают инфраструктурой и данными, вторые — идеями и кадрами.

Крупные технологические корпорации способствуют развитию науки в академической среде, считает Азамат Жилоков, директор Института искусственного интеллекта МФТИ. «Компании предлагают университетам решать реальные задачи, дают доступ к отраслевым данным и вычислительным ресурсам. Для корпораций это шанс первыми увидеть новые подходы»,— отмечает Жилоков.

Сергей Муравьев, доцент Института прикладных компьютерных наук ИТМО, уточняет, что академия играет роль фабрики идей. «При этом основной вклад пока оказывают исследователи из индустрии за счет быстрого внедрения результатов и больших вычислительных ресурсов»,— считает эксперт.

За последние годы отдельные гиганты, такие как Netflix, Google, Spotify и другие, сделали доступными некоторые датасеты. Например, был опубликован огромный массив Amazon Reviews, музыкальные треки Spotify, коллекция Google MusicCaps и ряд других. В России пионером выступил «Яндекс».

«Один из главных датасетов, который был опубликован российскими игроками в этом году,— это Yambda от компании “Яндекс”. Исследователи проделали огромную работу — кроме сбора самих данных музыкального сервиса, они стандартизировали протокол валидации и представили замеры качества работы основных моделей.

Важной отличительной особенностью этого датасета является наличие богатого признакового описания музыкальных композиций, а также возможность отделить органические события от рекомендательных. Я думаю, что благодаря этому датасет может дополнить список общепризнанных бенчмарков в области»,— отметил Муравьев.

Датасет вызвал интерес у зарубежных исследователей. Аман Чадна, руководитель направления Generative AI в Amazon Web Services (AWS), отметил, что такие датасеты, как Yambda-5B, сокращают разрыв между академическими исследованиями и практической значимостью для индустрии. Карун Танкачан, ведущий Data Scientist в Walmart (ранее Amazon), в социальных сетях писал: «Работая в этой области достаточно долго, я не раз видел, что большинство тестовых датасетов не дотягивают до уровня реальных сервисов — они либо чрезмерно упрощают сложность современных платформ вроде Spotify или YouTube, либо не содержат адекватных метрик для оценки. Поэтому так впечатляет появление датасета Yambda».

Вслед за «Яндексом» к инициативе по публикации данных подключились и другие российские компании. В конце лета 2025 года AI-команда VK представила VK-LSVD — датасет включает 40 млрд взаимодействий 10 млн пользователей с 20 млн коротких видео, собранных за полгода. В сентябре команда RecSys R&D Т-Банка выложила T-ECD — синтетический e-commerce датасет, созданный из реальных данных банка. В нем содержится более 135 млрд взаимодействий, охватывающих пять областей: маркетплейс, доставка продуктов, партнерские офферы, отзывы и платежи.

Открытые данные как язык международного диалога

Публикация таких массивов данных открывает дорогу для компаний к международному диалогу. Так, в сентябре Yambda был представлен на международной конференции ACM RecSys в Праге — одной из ключевых площадок в сфере рекомендательных технологий.

Научная статья российских исследователей одна из немногих вошла в программу устных докладов: в ней команда представила не только сам датасет, но и открытые бейзлайны (базовые модели и наборы программ, на которых другие исследователи могут проверять качество алгоритмов и сравнивать результаты исследований).

Международное присутствие усиливают и российские университеты. «На базе Института искусственного интеллекта и цифровых наук НИУ ВШЭ создана международная лаборатория стохастических алгоритмов и анализа многомерных данных, одним из направлений исследований которой является развитие рекомендательных систем. Коллеги не только работают над научными исследованиями, которые заканчиваются статьями уровня А*, но и реализуют их практическое применение для индустриальных партнеров. Так, среди наших стратегических партнеров есть международные и российские лидеры рынка, для которых внедрение рекомендательных систем дало значительный эффект»,— комментирует Андрей Даркшевич, заместитель директора Института искусственного интеллекта и цифровых наук факультета компьютерных наук ВШЭ.

Развитие кадров для индустрии

Наборы данных важны не только для научных исследований, но и для подготовки кадров. Андрей Даркшевич отмечает: «Ограниченность или отсутствие больших датасетов, конечно же, влияет на обучение студентов и молодых исследователей, и это обусловлено тем, что без их наличия все остается близким к теоретическим исследованиям. Учебные датасеты часто являются рафинированными, прошедшими предварительную предобработку, а для развития прикладных навыков необходимы не только теоретические исследования и оттачивание навыков реализации алгоритмов, но и опыт, полученный на реальных данных при решении задач бизнеса. Подготовить специалистов без доступа к реальным данным невозможно, но и датасетов недостаточно. Публикация массивов позволяет включать реальные задачи в учебный процесс, а бизнесу важно вовлекать молодых специалистов в практику».

Вопрос подготовки кадров в области ИИ сейчас в фокусе государства.

«Развитие перспективных технологий, в том числе искусственного интеллекта,— одно из ключевых направлений деятельности Минцифры.

При этом нужно отметить, что любая технология должна применяться исключительно с соблюдением прав и интересов граждан,— прокомментировали в пресс-службе Минцифры.— ИТ-компании активно участвуют в подготовке ИТ-специалистов, в том числе в области ИИ. Так, в 2025 году запущен проект “Топ ИИ”, направленный на подготовку высококвалифицированных специалистов в области искусственного интеллекта. В этом учебном году на новых программах уже начали обучение более 4,7 тыс. человек. Проектом предусмотрено обучение студентов по новым программам высшего образования в сфере ИИ, разработанным совместно с ИТ-отраслью и ключевыми работодателями. К 2030 году в рамках проекта планируется обучить более 10,2 тыс. студентов».

Куда двигаются индустрия и академия

Эксперты сходятся во мнении: публикация больших датасетов лишь первый шаг. Они позволяют строить более точные модели и сокращают разрыв между академией и бизнесом. Но для дальнейшего прогресса важны развитая инфраструктура, поддержка открытости и, конечно, локальное и международное сотрудничество.

Активизация всех игроков индустрии может ускорить путь к новым научным открытиям в области развития алгоритмов рекомендаций. «Большие датасеты, предоставленные российскими компаниями для всеобщего использования,— это огромный шаг вперед для индустрии рекомендательных систем. Он позволит тренироваться и решать задачи именно на реальных данных, получать модели, которые так или иначе могли бы быть использованы для решения задач. Но все-таки это только первый шаг, и в дальнейшем нам в этом направлении нужно продолжать развитие»,— комментирует Даркшевич.

Однако для того, чтобы потенциал реализовался, важна не только работа исследователей, но и изменения в инфраструктуре. В Ассоциации больших данных подчеркнули, что даже небольшие объемы данных способны стимулировать инновации. Сейчас рынок находится на стадии формирования идей и готовности к прорыву. Поддержка открытости данных, развитие инфраструктуры и смягчение регуляторных ограничений создают возможности для появления эффективных и востребованных рекомендательных систем.

Мария Грибова