«Мы играем вдолгую»
Как российские лаборатории создают инновационные ML-решения
Машинное обучение и искусственный интеллект стремительно меняют мир, а ключевые прорывы в этой области рождаются в научных лабораториях. Одной из ведущих российских команд в сфере ML-исследований является Yandex Research — подразделение «Яндекса», которое занимается как фундаментальной наукой, так и внедрением разработок в реальные продукты.
Руководитель Yandex Research, специалист в области машинного обучения и нейросетевых технологий Артем Бабенко
Фото: Предоставлено Yandex Research
Руководитель Yandex Research, специалист в области машинного обучения и нейросетевых технологий Артем Бабенко
Фото: Предоставлено Yandex Research
Как устроена работа лаборатории, какие технологии сегодня определяют будущее машинного обучения и в чем секрет успешных ML-решений, «Ъ-Наука» поговорил с Артемом Бабенко, руководителем Yandex Research, специалистом в области машинного обучения и нейросетевых технологий.
— Чем занимается команда ученых в Yandex Research, на какой теоретической базе основываются исследования?
— Наша лаборатория занимается фундаментальными и прикладными исследованиями в области машинного обучения, которые выливаются либо в публикации на передовых международных конференциях, либо в наукоемкие трансферы в продукты «Яндекса». Сейчас ключевая парадигма в машинном обучении — это глубокие нейросети, математика которых включает линейную алгебру, теорию вероятностей и статистику, методы оптимизации. На них и основано большинство наших исследований.
— В чем различие между ИИ и машинным обучением? Почему важно не смешивать эти понятия?
— Я думаю, что все люди, которые эти термины используют, на самом деле насыщают их разными смыслами. Уточню, какими насыщаю я. ИИ — термин, объединяющий все задачи про то, чтобы научить компьютер делать все то, что хорошо умеет делать человек: распознавать картинки, отвечать на вопросы, играть в шахматы и многое другое. А машинное обучение — это набор методов, с помощью которых эти задачи можно решать.
— Расскажите о самых значимых ML-исследованиях, которые были разработаны в лаборатории. В каких сервисах/сферах они уже используются?
— Мы гордимся нашими результатами в нескольких научных направлениях. Во-первых, это генеративные модели в компьютерном зрении. В начале 2020-х годов у нас было несколько заметных работ по GAN, в основном связанных с семантическим редактированием изображений с помощью манипуляций в латентном пространстве. Потом наш интерес сместился в сторону диффузионных моделей, например, нам первым удалось показать, что их можно использовать не только для генеративных целей, но и для получения качественных репрезентаций картинок, которые потом могут использоваться другими моделями. Сейчас нас в основном интересует задача ускорения больших диффузионных моделей, хочется, чтобы они стали доступнее для тех, у кого нет под рукой больших вычислительных мощностей. Экспертиза наших ученых по этому направлению успешно проросла и в продукты, например, все желающие могут попробовать приложение «Шедеврум», в котором используются наши наработки.
Во-вторых, это нейросети для табличных данных, то есть данных без какой-либо мультимедийной структуры, например обычная таблица в Excel. В отличие от изображений, текста, речи, для табличных данных глубокие нейросети не всегда являются наилучшим инструментом. «Олдскульные» модели, основанные на решающих деревьях, часто работают лучше. Поэтому разработка новых нейросетевых архитектур, которые бы успешно решали задачи с такими данными,— важное научное направление, в котором наша лаборатория — одна из ведущих в мире, многие наши статьи заложили основу для этой области. А наши последние модели уже активно используются не только учеными, но и ML-инженерами, например, они стали востребованным инструментом в самых популярных в комьюнити международных соревнованиях по машинному обучению на платформе Kaggle.
Третье направление — графовые нейросети. Эта тема очень популярна в академическом сообществе, выходит очень много статей по новым моделям графовых нейросетей. А вот на практике они пока используются редко, и станут ли они повсеместно используемым инструментом — вопрос, на который только предстоит ответить и который нас очень интересует. Пока мы отвечаем на него осторожно-позитивно и работаем над повышением применимости графовых нейросетей, например, недавно с нашей помощью они стали использоваться в антифроде «Яндекса».
Последнее направление — это эффективные большие языковые модели (LLM). Сейчас уже всем очевидно, что LLM становятся общечеловеческим инструментом для решения большого количества различных задач. Ключевая проблема с LLM — их дороговизна, их крайне дорого как тренировать, так и использовать. Поэтому мы в отделе активно исследуем, как можно сделать использование LLM более доступным, как с точки зрения времени применения, так и с точки зрения необходимой памяти на вычислительном сервере.
— Какие текущие исследования/проекты вы считаете наиболее перспективными? Есть ли у вашей лаборатории какая-то грандиозная цель, которую вы давно стремитесь реализовать?
— Все четыре направления, описанные выше, активно развиваются, мы видим там перспективы и продолжаем туда инвестировать. У каждого направления есть конкретные научные вызовы, которые необходимо преодолеть, чем мы на ежедневной основе и занимаемся. Если говорить о цели на уровне всей лаборатории, то она звучит просто: «получать научные результаты, которые окажут масштабное и долгосрочное позитивное влияние на ML».
— Опишите типичный цикл создания нового исследования: как вы собираете данные, как оцениваете результаты?
— Все начинается с идентификации проблемы: «Что болит? Какую проблему решаем?», из этого вытекает постановка задачи. После постановки задачи выдвигаются научные гипотезы: «возможно, эту проблему можно адресовать так». Затем продумывается эксперимент, как можно максимально быстро эту гипотезу проверить. Если гипотеза не подтвердилась, то переходим к проверке новой. А в случае успеха проводим более масштабный эксперимент на более широком наборе датасетов, чтобы убедиться в том, что успех на них подтверждается.
— Чем Yandex Research отличается от других российских лабораторий, занимающихся машинным обучением?
— Во-первых, тем набором научных направлений, которыми занимаются в лаборатории. Например, нейросетями для табличных данных в РФ активно занимаются только в Yandex Research. Во-вторых, за счет того что мы индустриальная лаборатория, у нас очень плотная провязка с сервисами: только за последние полгода наработки наших ученых оказались внедрены в несколько продуктов «Яндекса» — это «Шедеврум», автономный транспорт, антифрод и многое другое. Не каждый ученый обладает возможностью через месяц после получения научного результата увидеть его работающим в реальном приложении, которое приносит пользу. В-третьих, мы, наверное, самая давно существующая лаборатория по ML в стране, которая стабильно публикуется на топовых конференциях: мы начали работу в 2011 году, еще до повсеместной моды на ML-ресерч. Уже 14 лет успешно занимаемся наукой, достойно прошли различные кризисы всех сортов, это говорит о том, что наша модель существования устойчива.
На самом деле в разные периоды существования лаборатории у нас эволюционировало целеполагание, сейчас мы созрели, понимаем, что самое важное — это «игра вдолгую», максимизировать именно долгосрочную пользу. С точки зрения KPI это значит, что мы не ориентируемся на число принятых статей, даже на топовых конференциях, нам важно именно масштабное влияние на ML-сообщество. Как его мерить — вопрос дискуссионный, в качестве одной из метрик можно использовать цитируемость. Даже среди наших относительно «молодых» статей, то есть опубликованных за последние пару лет, самые успешные уже цитируются сотни раз, в том числе уважаемыми мировыми лабораториями. Кроме того, «Яндекс» стал единственной российской компанией, вошедшей в список мировых лидеров развития ИИ, по версии ученых из MIT и аналитиков Epoch AI. В списке присутствуют такие компании, как Google, Microsoft, OpenAI, Amazon, Huawei и другие. Исследователи сравнивали компании по общему числу и цитируемости научных статей на тему ИИ, объему данных для обучения моделей и развитию алгоритмов.
— Как российские лаборатории взаимодействуют с мировым сообществом? Повлияли ли геополитические события на обмен опытом с зарубежными коллегами?
— Я не могу ответить про все научные лаборатории в России, отвечу конкретно про Yandex Research. У нас очень широкая сеть научных коллабораций с зарубежными лабораториями — как с университетскими, так и с индустриальными. За последние два года у нас были совместные статьи с Microsoft, Together AI, Hugging Face, Berkeley, ETH Zurich, Carnegie Mellon, ISTA, KAUST и другими. Так что у нас в плане связей с зарубежными коллегами за последние несколько лет больших изменений нет, если есть фундамент для здоровой научной коллаборации, проблем не возникает.
— Сталкиваетесь ли вы с этическими дилеммами при разработке ML-решений?
— Пока не сталкивались.
— Какие основные вызовы в области машинного обучения и искусственного интеллекта вы могли бы отметить?
— В первую очередь дороговизну обучения передовых моделей: многим потенциальным пользователям ML оно недоступно. С точки зрения ученого, проблема таких моделей в том, что проверка многих научных идей требует большого количества вычислительных мощностей, новое знание приобретается медленнее.
Во-вторых, повышение качества тренировочных данных. Опыт показывает, что обучение на небольшом датасете с более качественной, дорогой разметкой приводит к лучшим результатам по сравнению с обучением на большом, но хуже размеченном датасете.
— Какие основные возможности для развития машинного обучения в России вы видите в ближайшие пять—десять лет? В каких сферах стоит ждать прорывов?
— С текущим темпом развития машинного обучения что-то предсказывать на пять—десять лет непросто, но какой-то прогноз попробую дать. В России сейчас есть научные группы, которые активно двигают фронтир как по compute-heavy областям машинного обучения (такие как LLM и компьютерное зрение), так и по менее вычислительно затратным направлениям (такие как графы или табличные данные). Я считаю, что по всем этим областям в ближайшие пять лет возможны существенные продвижения.
— Какие советы вы могли бы дать молодым ученым, стремящимся развиваться в области машинного обучения?
— Как можно раньше попасть в сильную научную лабораторию, где занимаются задачами, которые вам интересны. И поставить максимально высокую планку качества — ставить амбициозные задачи, публиковаться только на ведущих конференциях, не размениваться на неинтересные или невостребованные проекты.