обновлено 14:22

Лучшие рекомендации

Исследователи из «Яндекса» нашли способ точнее понимать пользователей

Исследователи из «Яндекса» представили решение фундаментальной проблемы рекомендательных систем, используемых в интернет-магазинах, соцсетях и стриминговых сервисах. Они усовершенствовали ключевую формулу LogQ, которая исправляет ошибки на этапе обучения моделей, что позволяет точнее оценивать предпочтения пользователей и давать более релевантные рекомендации.

Фото: Игорь Иванко, Коммерсантъ

Фото: Игорь Иванко, Коммерсантъ

Новая методика, уже принятая на престижную международную конференцию ACM RecSys 2025, показала прирост точности рекомендаций на 7% и может быть легко внедрена разработчиками по всему миру без изменения архитектуры существующих систем.

«Ъ-Наука» поговорил с Владимиром Байкаловым, исследователем рекомендательных архитектур «Яндекса», как новая формула LogQ исправляет фундаментальную ошибку в обучении нейросетей, почему это повышает точность рекомендаций и когда обновление увидят пользователи «Маркета» и других сервисов.

— В чем ключевой недостаток sampled softmax, часто используемого для ускорения обучения рекомендательных систем?

— Основной недостаток sampled softmax заключается в смещении выборки (sampling bias), возникающем при использовании in-batch-негативов («неподходящих» объектов-примеров) во время обучения. Чаще всего в их роли оказываются популярные объекты (товары, треки или рекламные объявления), поскольку у них больше вероятность оказаться в случайном батче и они чаще встречаются по сравнению с нишевыми примерами. В результате способность модели корректно оценивать релевантность того или иного объекта для пользователя ухудшается. Чтобы это исправить, во всем мире используют LogQ-коррекцию, которая снижает влияние смещения выборки, учитывая популярность объекта-примера.

— Что не учитывала классическая формула LogQ при обучении и почему это важно?

— Классическая формула LogQ-коррекции игнорировала принципиальное различие между положительными и отрицательными объектами при подсчете sampled softmax. Исходная реализация предполагала, что все объекты (и позитивные, и негативные) выбираются для какого-то конкретного примера из датасета случайно. В действительности положительный объект всегда присутствует с вероятностью 1, а не выбирается аналогично негативным. Это различие критично, поскольку применение одинаковой коррекции к обоим типам объектов приводит к неправильной оценке градиента, и модель учится не так, как должна.

— В чем суть вашего улучшения формулы LogQ? Какую ошибку вы исправили?

— Мы начали корректно учитывать значение положительного объекта. То есть скорректировали изначальную формулу, исключив применение LogQ-поправки к положительному объекту при подсчете sampled softmax. При правильном выводе формулы мы увидели, что для каждого примера добавился вес, который зависит от его важности. То есть чем меньше ошибка, тем меньше вес примера в обучении. Это дает интуитивно понятный результат: можно не уделять много внимания примерам, с которыми модель справляется сама.

— Как эта корректировка помогает модели лучше понимать предпочтения пользователей?

— Наша корректировка используется на ранних стадиях рекомендательного стека, когда нужно отобрать набор релевантных объектов из огромного каталога данных. Далее они будут ранжироваться более сложной моделью, и затем их увидят пользователи. Можно сказать, что благодаря нашей поправке улучшается качество всего рекомендательного стека и тех рекомендаций, которые доходят до пользователей.

— Насколько заметен эффект от применения нового метода?

— Улучшение качества рекомендаций на 1–2% считается значительным. На некоторых наборах данных мы добились прироста на 7%, что является существенным показателем качества ранжирования для отрасли: Recall@20, NDCG@20, Recall@1000. Пользователь заметит более точные, разнообразные и персонализированные рекомендации, особенно если его интересуют специфические товары или нишевые категории.

— Насколько сложно внедрить ваше решение в существующие рекомендательные системы?

— Если рекомендательная система уже использует LogQ-коррекцию, то процесс внедрения довольно прост. Достаточно только поправить формулу ошибки (лосс-функции), без изменения архитектуры модели или процесса обучения. Новый метод не увеличивает вычислительную сложность по сравнению со стандартной LogQ-коррекцией. Изменения затрагивают только этап обучения, а система инференса (выдачи рекомендаций) остается прежней.

Сложности могут возникнуть только в системах, которые еще не используют LogQ-коррекцию. Там потребуется дополнительная реализация механизма коррекции смещения на этапе подсчета ошибки.

— Почему ваша методика универсальна и применима в разных отраслях?

— Универсальность методики обусловлена следующими факторами: во-первых, двухбашенные модели с in-batch-негативами используются во всех областях — от видеорекомендаций (YouTube) до e-commerce-платформ (например, Walmart). Во-вторых, наше улучшение работает на уровне функции ошибки и не зависит от специфики предметной области. Это значит, что метод не привязан к конкретной индустрии и применим везде, где есть рекомендательные системы.

— Почему ваше исследование привлекло внимание престижной конференции ACM RecSys 2025?

— Наше исследование было принято на RecSys 2025, так как оно решает фундаментальное противоречие в обучении. Старые подходы приводили к систематическим ошибкам в формировании рекомендаций: система могла неверно определять, какие объекты действительно интересны человеку. Кроме того, мы хотели заполнить пробел в академической литературе, предоставляя эксперименты как на публичных академических датасетах, так и на больших промышленных данных. И над статьей, и над реализацией улучшенной формулы работала большая команда исследователей: Кирилл Хрыльченко, Владимир Байкалов, Артем Матвеев, Сергей Лямаев, Сергей Макеев.

— Можно ли считать проблему окончательно решенной или это лишь шаг на пути развития?

— Это важный, но не финальный шаг в развитии методов обучения рекомендательных систем. Мы решили лишь конкретную концептуальную проблему в LogQ-коррекции и показали последовательные улучшения качества. Наше исследование представляет собой значительное усовершенствование существующих методов, но область продолжает активно развиваться, и, возможно, через какое-то время можно будет увидеть еще более точную оценку, которая превзойдет наше решение.

Мария Грибова