Коммерсантъ FM

Кнут, пряник и галлюцинации

Как меняется ландшафт ИИ по версии конференции ICLR

В конце апреля в Рио-де-Жанейро, Бразилия, прошла четырнадцатая Международная конференция по обучению представлений (ICLR, International Conference on Learning Representations). Знаковым событием перед началом мероприятия стал кризис вокруг использования языковых моделей в процессе слепого рецензирования.

Четырнадцатая Международная конференция по обучению представлений, ICLR

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Организаторам пришлось массово проверять рецензии и статьи на наличие сгенерированного контента, выявлять «сгаллюцинированные» ссылки на несуществующие публикации и вводить новые правила раскрытия использования ИИ в процессе создания научных статей. Ситуацию усугубил инцидент на платформе OpenReview, где из-за уязвимости были раскрыты личности авторов и рецензентов. Организаторы были вынуждены объявить пересмотр оценок, переназначить кураторов направлений и вручную разбирать спорные случаи, фактически превратив ICLR 2026 в первый крупный пример того, как генеративный ИИ начинает менять саму систему научных публикаций. В результате вторая по масштабу ИИ-конференция после NeurIPS, финальные данные по количеству работ на которой в 2026 году еще не опубликованы, все равно стала рекордной: порядка 20 тыс. поданных статей, более 76 тыс. рецензий и свыше 5 тыс. принятых к публикации работ. Что говорят о трендах в сфере компьютерных наук наиболее популярные тематики исследований, представленных на ICLR? «Ъ-Наука» обсудил их с учеными, присутствовавшими на конференции.

Увеличение числа работ и укрупнение тематик

Три года назад на ICLR было принято 1573 статьи, к 2026 году их число выросло до 5355 — более чем втрое. Коэффициент принятия работ к публикации составил 27,4%. С ростом количества статей поменялись и приоритетные тематики исследований: многие идеи, еще недавно считавшиеся центральными для научных работ в области машинного обучения, постепенно становятся частью более многопрофильных направлений.

В 2023 году на ICLR было принято до 100 статей, напрямую посвященных большим языковым моделям. В 2026-м их число увеличилось до 851.То есть количество работ, посвященных LLM, выросло более чем в восемь раз за четыре года. В 2023 году крупнейшей темой было обучение с подкреплением, которому ученые посвятили 95 статей, и, несмотря на стабильный рост интереса к вопросу о том, как показывать искусственному интеллекту кнут и пряник, количество статей по теме в 2026 году составило 424 работы — бум языковых моделей превзойти не удалось.

Этот пример хорошо иллюстрирует то, как направления в исследованиях ИИ интегрируются друг с другом. «Все чаще создаются системы, способные вести диалог, рассуждать, планировать, пользоваться инструментами и работать одновременно с текстом, изображениями, аудио и видео. Раньше обучение с подкреплением ассоциировалось прежде всего с игровыми агентами, робототехникой и задачами определения скорости достижения эффективности алгоритмом. Сегодня оно интегрируется с языковыми моделями через обучение на основе обратной связи от человека, обучение агентов и оптимизацию процессов рассуждения, как бы становится основой для многих направлений»,— констатирует Владислав Куренков, руководитель научной группы «Адаптивные агенты» Института AIRI. По словам Дмитрия Бабаева, руководителя R&D GigaCode в «Сбере», «складывается ощущение, что фокус постепенно смещается от изолированных задач к более комплексным, приближенным к реальной инженерной практике сценариям, где важна не только генерация кода, но и способность агента планировать, отлаживать и доводить решения до конца». Заметен рост интереса в направлении изучения мультимодальных систем, рассуждений и ИИ-агентов.

Четырнадцатая Международная конференция по обучению представлений, ICLR

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Обманчивая мода

Одна из самых примечательных вещей в современных исследованиях ИИ — скорость, с которой здесь рождаются новые методы, и то, насколько быстро они становятся популярными. Еще четыре года назад главным символом технологического прорыва казались диффузионные модели, лежащие в основе известных генераторов изображений вроде DALL·E от OpenAI и Stable Diffusion компании Stability AI. Между 2023 и 2025 годами число статей по диффузионным моделям на ICLR выросло с 41 до 255, и на фоне резкого увеличения числа работ казалось, что генерация изображений станет самым главным направлением десятилетия, но уже к 2026 году волна хайпа начала стремительно смещаться в сторону «ризонинга», умения ИИ рассуждать и строить логические цепочки. Количество работ по этой теме выросло с 9 до 145 всего за четыре года, причем почти сотня новых статей появилась только за последний цикл конференции. Вместе с этим активно стали появляться новые тематические подкатегории: рассуждение больших языковых моделей, мультимодальное рассуждение, пространственное рассуждение.

Говоря о генеративном ИИ, Сергей Кастрюлин, глава прикладных исследований Yandex Research, подчеркивает: «Анализ работ на ICLR показывает, что диффузионные модели остаются одной из основных парадигм обучения генеративных моделей. По сравнению с прошлым годом заметно вырос интерес к их применению для моделирования дискретных данных — текст, код, математика». По его мнению, это связано прежде всего с прогрессом в ускорении и масштабировании дискретных диффузионных моделей, а также с появлением интересных подходов, использующих непрерывную и гибридную диффузию для решения этой задачи. В то же время непрерывная диффузия продолжает доминировать в генерации и редактировании визуальных данных, то есть изображений и видео. «Большинство работ этого года было посвящено масштабированию уже известных подходов и новым методам повышения эффективности и качества на этапе использования ИИ-модели»,— заключает Сергей Кастрюлин.

Если посмотреть на цифры, то может показаться, что снижается интерес к классическим направлениям в машинном обучении, например, обучению на малом числе примеров, полуконтролируемому обучению, графовым нейросетям и традиционным подходам обработки естественного языка. Однако в реальности эти идеи не уходят в тень. «Они попадают внутрь экосистемы фундаментальных моделей и становятся, скажем так, технологической основой для чего-то нового. Например, самообучение, которое несколько лет назад считалось революцией, сегодня воспринимается уже как стандартное свойство современных моделей. В мире ИИ исчезновение темы из списка модных часто означает, что она достигла технологической зрелости, а не то, что она оказалась бесполезной или изжила себя»,— объясняет Владислав Куренков.

ИИ растет, и все хотят его измерить

Исследователи все чаще приходят к выводу, что одного масштабирования уже недостаточно и будущие ИИ-системы должны уметь рассуждать по шагам, проверять собственные выводы, планировать действия и взаимодействовать с окружающей их средой на длинных временных горизонтах.

Число публикаций по мультимодальным большим языковым моделям выросло практически с нуля до 118 работ. Исследователи все чаще рассматривают текст, изображения, видео, звук и действия как единый тип данных, который может обрабатываться одной архитектурой или их связкой, чтобы система была способна видеть, слышать, анализировать окружающую среду и взаимодействовать с программами и даже физическим миром.

Темы, связанные с надежностью моделей, галлюцинациями, вредными ответами и мониторингом поведения систем, превратились в полноценный исследовательский трек. Причем акцент постепенно смещается от изучения «выравнивания» ИИ к более прикладным вопросам того, как именно следует тестировать модели, отслеживать ошибки и контролировать их работу в реальных условиях: вместо ключевого слова Аlignment (выравнивание) все чаще в работах фигурирует словосочетание AI Safety (безопасность ИИ). Как ранее отмечал в разговоре с «Ъ-Наукой» руководитель группы «Доверенные и безопасные интеллектуальные системы» Института AIRI Олег Рогов, «в целом движение идет в сторону большей строгости, проверяемости и инженерной дисциплины, к системам, где безопасность можно четко описать, измерить и независимо проверить».

Четырнадцатая Международная конференция по обучению представлений, ICLR

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Четырнадцатая Международная конференция по обучению представлений, ICLR

Фото: из личного архива Владислава Куренкова

Направление измерений искусственного интеллекта, так называемых бенчмарков, переживает настоящий бум: количество работ на эту тему с 2023 по 2026 год выросло с 8 до 154. «Заметный тренд — рост числа бенчмарков, оценивающих способность ИИ решать задачи программирования, в том числе в агентном режиме. Появляется все больше работ, которые пытаются приблизить оценку к реальным сценариям разработки: с многошаговыми задачами, использованием инструментов и длительным контекстом. Среди таких бенчмарков можно отметить InnovatorBench, FeatureBench, Terminal-bench, Multi-LCB»,— рассказывает Дмитрий Бабаев. Современные системы развиваются настолько быстро, что старые тесты перестают различать уровень их возможностей, и исследователи вынуждены создавать новые способы измерять способность моделей рассуждать, писать код, работать с длинным контекстом и так далее. По сути, ИИ-системы улучшаются быстрее, чем научное сообщество успевает придумывать инструменты для оценки его прогресса.

Тест временем и российские ученые на ICLR

Ежегодно на многих крупных конференциях по ИИ, включая ICLR, несколько статей получают награды. Как правило, комитет выбирает «особо отмеченные рецензентами» работы, а также статьи, прошедшие тест временем. В эту номинацию попадают исследования, опубликованные на конференции много лет назад и, по мнению организационного комитета, внесшие самый существенный и долгоиграющий вклад в развитие индустрии. На ICLR 2026 такой стала публикация об архитектуре DCGAN, впервые представленная на этом же мероприятии десять лет назад. Алек Рэдфорд и его коллеги доработали предложенную ранее Яном Гудфеллоу архитектуру GAN — генеративно-состязательных сетей — и показали, что нейросети могут обучаться без разметки и самостоятельно извлекать структурные представления мира, создавая реалистичные изображения. Это стало важным шагом на пути к современным генеративным моделям и управляемой генерации.

Ускорению генерации изображений уделили внимание ученые из НИУ ВШЭ, AIRI, Физтеха и МГУ: они оптимизировали математические вычисления под конкретную задачу, используя методы состязательного машинного обучения. «Генерация изображений часто задается как некоторый процесс, каждый новый шаг которого постепенно улучшает результат генерации. Современные модели используют нейронные сети с более чем 100 млн параметров и задают крайне сложные процессы с большим числом шагов. В статье мы показываем, что достаточно правильно поменять около сорока чисел, чтобы упростить процесс генерации и совершать ее всего за 4–10 шагов, тогда как стандартный подход требует 50–100 шагов»,— поделился Александр Оганов, стажер-исследователь Центра глубинного обучения и байесовских методов ФКН НИУ ВШЭ.

Институт AIRI самостоятельно и в соавторстве с коллегами из Сколтеха, НИУ ВШЭ, МФТИ, МГУ, Иннополиса и других организаций привез на ICLR 54 публикации. Среди них — несколько бенчмарков, включая GeomMotif, предназначенный для проверки способности ИИ-модели достраивать целый белок вокруг заранее заданного структурного фрагмента с сохранением его точной трехмерной формы, бенчмарк для решения сложных задач с помощью обучения с подкреплением Mikasa, а также тест для проверки качества рассуждений языковых моделей в длинном мультимодальном контексте MMReD.

Бенчмарк HUME, посвященный сравнению способностей ИИ и людей анализировать текст, показали авторы «Сбера» с зарубежными коллегами. Исследования «Сбера» сосредоточены на корректном обучении ИИ-моделей с первой попытки, моделировании сложных систем и генерации видео. 14 работ авторов из НИУ ВШЭ охватили спектр тем от предсказания погоды до решения квантовых уравнений. Семь работ представили исследователи и инженеры «Яндекса», в частности сосредоточившие внимание на создании метода, ускоряющего генерацию изображений в диффузионных моделях до 0,3–0,4 секунды без потери качества. Среди четырех работ авторов из ИТМО нашелся метод, повышающий разрешение спутниковых данных о морском льде с 25 до 4 км. R&D-центр «Т-Технологий» показал на конференции новый способ повышения объективности больших языковых моделей.

«На ICLR съезжаются ведущие компании и исследователи в области искусственного интеллекта. Посещая постерные сессии конференции, можно увидеть будущие тренды в этой области. Постеры на такие темы всегда собирают вокруг себя большое число слушателей. В этом году, по-моему, особенно выделялись исследования, посвященные моделям мира. Это концепция, в рамках которой нейронная сеть учится предсказывать динамику окружающей ее среды»,— поделился впечатлениями Аскар Цыганов, стажер-исследователь международной лаборатории стохастических алгоритмов и анализа многомерных данных ФКН НИУ ВШЭ. «По итогам конференции наиболее запомнился целый ряд работ, посвященных самоэволюции ИИ-агентов — системам, которые способны улучшать собственное поведение, ориентируясь на качество решения задач»,— добавил Дмитрий Бабаев. В частности, исследователь выделил такие проекты, как «Darwin Gödel Machine» и «Huxley-Gödel Machine», в которых агенты итеративно модифицируют себя, замыкая цикл обучения на собственных результатах. Проще говоря, это системы искусственного интеллекта, которые могут анализировать свои прошлые действия, находить в них ошибки или способы улучшения и затем переписывать собственный «код поведения» или стратегию, чтобы в следующий раз работать эффективнее. Уделить особое внимание тематике ИИ-агентов рекомендует и Владислав Куренков: «В этом году разные работы, посвященные агентным системам, собрали очень много внимания на площадке. К авторам подходили люди, задавали вопросы, обсуждали. Не стоит забывать, что представленные на конференции работы прошли очень длинный путь рецензирования. По сути, мы увидели результаты, полученные год назад. Предполагаю, что на следующем этапе в работах появится больше специализированных бенчмарков для мультимодальных агентов, а также можно будет увидеть успехи в развитии малых моделей, которые будут способны решать задачи как большие, но тратить меньше вычислительных ресурсов. Кроме того, ожидаю, что через год прибавится количество статей, посвященных так называемым харнессам. Если объяснить просто, то харнесс — это “обвязка” вокруг языковой модели из промптов, инструментов, памяти, поиска, проверки и так далее, которая помогает ей решать задачи намного эффективнее».

Елизавета Певная