«Отличается умом и сообразительностью»
Что такое интеллектуальная робототехника
Почему антропоморфные роботы-помощники еще не поселились в наших домах? Какие задачи стоят перед современной робототехникой, кто из ученых их решает и где публикует свои работы?
Александр Панов
Фото: Институт AIRI
Александр Панов
Фото: Институт AIRI
На вопросы «Ъ-Науки» ответил Александр Панов, доктор физико-математических наук, директор лаборатории когнитивных систем ИИ Института AIRI и Центра когнитивного моделирования МФТИ:
— Что такое интеллектуальная робототехника?
— Сначала договоримся о том, что такое робот, ведь многие, услышав это слово, представляют себе иллюстрации к книге Азимова «Я, робот» или металлических собачек. В этом нет ничего предосудительного, но в реальной жизни мы сталкиваемся с роботами намного чаще, чем кажется: на производствах работают манипуляторы на конвейерах, по тротуарам ездят беспилотные роверы-доставщики, а квартиру убирают автоматические пылесосы. То есть под роботами следует понимать программируемые инженерные механизмы, которые работают в автоматическом режиме и созданы для того, чтобы выполнять задачи, осуществляемые человеком в физическом мире.
— Считать ли роботом стиральную машину?
— Нет, потому что она выполняет жесткую последовательность действий без адаптации к среде. Это простой механизм. Но если ваша машинка «чувствует», что в нее загрузили слишком много белья, имеет голосовой модуль, чтобы задавать владельцу вопросы в свободной форме, а также сама решает, когда и какой режим следует включить,— возможно. В общем, когда кто-то говорит «робототехника», он чаще всего имеет в виду инженерию и создание высокотехнологичной оболочки или системы, призванные работать в рамках строгих сценариев.
«Интеллектуальная робототехника» подразумевает, что машины должны работать в сложных условиях — например, при частичной наблюдаемости или в прямом взаимодействии с человеком, а такие ситуации требуют наличия в роботах обучаемых компонентов, работу которых мы заранее не можем предусмотреть при проектировании системы управления инженерной оболочкой.
— То есть интеллектуальная робототехника — это про то, как создавать мозги роботов?
— Если утрировать, то да. Система управления для интеллектуальной робототехники позволяет интегрировать в «прошивку» большие языковые модели или мультимодальные модели, которые работают с разными типами сенсоров и в том числе позволяют им использовать так называемый common sense (здравый смысл, общие знания о мире.— «Ъ-Наука») для планирования более сложного поведения.
— Какую роль искусственный интеллект играет в развитии современных роботов?
— Базис многих обучаемых компонент — обучение с подкреплением, подход, при котором система учится принимать оптимальные решения в среде, взаимодействуя с ней методом проб и ошибок и, соответственно, получая обратную связь в виде наград или штрафов. Еще один очень популярный в последнее время подход называется imitation learning, или «имитационное обучение» по заранее собранным наборам данных, для того чтобы не просто попытаться повторить какие-то действия, но и постараться обобщиться на неизвестные условия, которые могут возникнуть в процессе решения выбранной задачи. Никуда и без нейросетевых трансформенных архитектур, которые повсеместно используются в задачах, требующих текстового управления, когда взаимодействие с роботом идет на естественном языке. В таких задачах мы не даем роботу четко сформулированной инструкции, а просто описываем желаемое действие словами и предполагаем, что интеллектуальная система сама сформулирует точную конечную цель, разложит задачу на подцели и постепенно будет достигать их с учетом обстановки.
В 2025 году трудно представить дальнейшее расширение сфер применения робототехники без внедрения обучаемых подходов на основе ИИ. Это особенно критично для работы в человекоориентированных средах, предназначенных для взаимодействия с человеком или для автономной работы в условиях, аналогичных человеческим. Под этим скрываются наши улицы, офисы и квартиры, ведь они отличаются друг от друга и не могут быть полностью идентичными. Если мы с вами найдем столовые приборы на кухне друга, опираясь на знания о том, где люди обычно хранят посуду, роботу на незнакомой кухне придется попотеть.
— Вы руководите лабораторией из трех научных групп в AIRI и Центром когнитивного моделирования в МФТИ. А чем именно занимается ваш научный коллектив?
— Первое — мультимодальные семантические карты среды. Это направление фокусируется на автоматическом построении динамических графовых представлений пространства вокруг мобильных роботов. Мультимодальность здесь заключается в том, что мы одновременно получаем с сенсоров объектную информацию, содержащую и названия объектов в виде текстового описания, и их свойства, например, указание на материал, из которого объект состоит. Я называл бы это перцептивным эмбеддингом, который кодирует смысловые и пространственные атрибуты объектов. Такие графы оказываются очень эффективными для задач навигации и манипуляции, потому что позволяют роботу интерпретировать команды на естественном языке — скажем, «принеси чашку с кофейного столика» — и сохранять контекст при ограниченном обзоре.
Второе направление — разработка гибридных алгоритмов обучения с подкреплением. Могу с уверенностью сказать, что в этой области наша команда является признанным лидером страны. Мы создаем «Model-based RL-методы», использующие предсказательные модели среды для ускорения обучения. Делаем специализированные нейроархитектуры, включая адаптированные трансформеры, для RL-задач. А еще занимаемся стратегиями интеграции RL с классическим оптимальным управлением. Эта синергия обеспечивает роботам устойчивость в недетерминированных условиях, где чисто обучаемые подходы пока недостаточно надежны.
Третье направление связано с разработкой больших поведенческих моделей, их еще называют vision—language—action (зрение—язык—действие.— «Ъ-Наука»). Это один из самых горячих трендов робототехники во всем мире. Раньше системы управления были преимущественно модульными, отдельные компоненты отвечали за специфические подзадачи: картирование, локализацию, планирование движений манипулятора или платформы, исполнение действий. Сейчас же акцент смещается на разработку единой нейросетевой модели, обучаемой end-to-end (часто с использованием предобученных весов и дообучения на специализированных данных) и способной воспринимать инструкции на естественном языке, чтобы управлять сложными роботами типа колесных платформ с двумя манипуляторами или антропоморфными роботами.
Именно в этой части мы идем с некоторым отставанием по качеству самих больших поведенческих моделей по сравнению с передовыми зарубежными разработками. Но опережаем их в интеграции обучаемых подходов с классическими методами оптимального управления. Эта гибридизация критически важна для преодоления текущих ограничений чистых VLA-моделей, особенно в задачах, требующих высокой точности, надежности и безопасности, где недопустимы частые ошибки при выполнении последовательных операций, потому что достичь одновременно высокой генерализации поведения и точности исполнения очень сложно. В гибридном интеллекте для робототехники российские исследования демонстрируют очень значимые достижения мирового уровня. Например, пионерскими работами я бы назвал статьи, посвященные управлению мобильными платформами в сложных динамических средах с движущимися препятствиями произвольной формы. Мы, например, разработали подход, в котором нейросетевые аппроксиматоры моделируют форму объектов в виде специальных потенциалов, интегрируемых затем в системы оптимального управления.
Сейчас фокусируемся на создании архитектуры, которая позволяла бы эффективно обучаться в офлайн-режиме, то есть на заранее собранных данных, а затем успешно дообучаться в онлайн-среде. Это необходимо для адаптации моделей к задачам, которые не входили в исходную обучающую выборку. Такой подход называется эффективным посттренингом. Исследуем модификации трансформерных архитектур, добавляя так называемые головы полезности, которые помогают улучшить переход от офлайн- к онлайн-обучению и снижают разрыв между ними.
— Расскажите про основные научные конференции по робототехнике. За какими следить? Что вас особенно зацепило за последний год на этих мероприятиях?
— Раньше конференции по робототехнике были довольно обособлены от конференций по искусственному интеллекту, но сейчас объединенные мероприятия стали популярнее. Появились специализированные конференции, посвященные именно интеллектуальным методам в робототехнике. Среди них можно выделить три ведущие.
Первая — это IROS (International Robotic Operation System), достаточно старая и уважаемая конференция, имеет уровень А.
Вторая и самая авторитетная конференция — ICRA. Именно она считается главной мировой площадкой по робототехнике. В последнее время там все больше внимания уделяется интеллектуальным подходам: представляется множество работ по поведенческим моделям, компьютерному зрению, схвату объектов и другим классическим задачам робототехники.
Третья конференция — CoRL (Conference on Robotic Learning), она достаточно молодая и пока не имеет официального рейтинга, но я лично считаю ее одной из самых перспективных. Программа целиком сосредоточена на интеллектуальных методах, проводится уже около пяти-шести лет. Ее тематика охватывает обучаемые подходы к решению задач манипуляции, передвижения, взаимодействия нескольких роботов и человеко-машинного взаимодействия. Со временем она точно наберет большую популярность.
Эти три конференции — основные ориентиры для профессионального сообщества. Мы за ними следим, ездим туда, анализируем работы и стремимся не упускать актуальные тренды. Особенно меня впечатлили последние демонстрационные стенды на этих мероприятиях. Все чаще можно увидеть не просто лабораторные прототипы, а готовые продукты от реальных компаний. Например, роботы-собаки или манипуляторы, способные работать в сложных условиях, а не только стандартные промышленные устройства, к которым все привыкли на деловых форумах. Особенно интересными кажутся последние достижения в области антропоморфной робототехники: ходьба хоть и все еще медленная, но уже очень стабильная, появляется управление всем телом, так называемый whole-body control. Это демонстрирует очень высокий уровень развития технологий и производит сильное впечатление.
— Правильно ли я понимаю, что ваш коллектив стал командой, у которой приняли максимальное количество статей из РФ на IROS?
— В прошлом году мы уже стали единственной командой полностью русскоязычных авторов на ICRA с нашей работой про потенциальные поля для планирования движения мобильного робота, о которой я уже рассказал. Что касается IROS 2025, то, согласно моим данным, нам действительно удалось стать командой с максимальным количеством принятых на конференцию статей в этом году: у нас их пять плюс одна. Шестую считаю бонусной, так как это трансфер из журнальной статьи. Есть такая традиция в робототехнических конференциях. А вообще, в России есть и другие очень сильные профильные команды. Например, лаборатория Сергея Колюбина из ИТМО и лаборатория Дмитрия Тетерюкова из Сколтеха.
— Расскажите о работах, которые представите на IROS.
— Я бы выделил четыре основные. Первая посвящена разработке в области больших поведенческих моделей. Мы предложили новую архитектуру для решения значимой проблемы в vision—language—action (VLA) моделях: детектирования неуспешно выполняемых действий и адаптивного перепланирования с учетом визуальной обратной связи. Этот подход позволяет роботу повторять или корректировать действия в динамической среде для достижения цели. Эффективность архитектуры была подтверждена в экспериментах на реальных роботах, которые мы провели совместно с Центром робототехники «Сбера».
Вторая работа связана с model-based-обучением с подкреплением. Разработали новый метод M3PO, расширяющий классическую архитектуру Proximal Policy Optimization (PPO). Объединили в ней мультизадачность и модель мира, которую робот выучивает в процессе взаимодействия при онлайн-обучении. В результате метод обеспечивает быстрое обучение компактных с точки зрения количества параметров стратегий, пригодных для быстрого развертывания на робототехнических манипуляторах.
Третья работа предлагает подход нейросимвольной интеграции (neuro-symbolic integration) под названием verifying LLM. Она решает проблему неявных ограничений при построении планов языковыми моделями. Метод использует линейную темпоральную логику для формальной спецификации ограничений задачи и необходимой последовательности подзадач. LTL-спецификации генерируются и используются как ограничения при построении плана LLM, обеспечивая верифицируемый и, следовательно, более надежный процесс планирования действий, которые будет выполнять робот.
Четвертая статья фокусируется на применении базовых моделей к классической задаче мультиагентного поиска пути, актуальной, например, в логистике складов для быстрого планирования непересекающихся траекторий множества роботов. Мы предложили метод дообучения большой трансформерной модели на обширных данных с последующей адаптацией к новым задачам MAPF.
Меня также радуют достижения в области картирования и локализации. Работа по топологической локализации с одновременным определением положения робота (Simultaneous Localization and Mapping — SLAM), представленная в журнале RA-L (Robotics and Automation Letters), получила возможность представить результаты и на конференции. Она устанавливает новые SOTA-результаты в своей области.
— А как в целом развивается направление автономных роботов? Какие задачи они уже могут решать самостоятельно?
— Многие разработки пока остаются в рамках лабораторных экспериментов, за исключением относительно продвинутых роботов для простых задач, которые нашли применение как в быту, так и на промышленных объектах. Массовых примеров их повсеместного использования в нашем окружении, особенно в виде антропоморфных систем, способных выполнять за человека сложные операции, мы пока не наблюдаем. Тем не менее уже существуют конкретные задачи, которые автономные роботы решают самостоятельно: это уборка помещений, доставка посылок с помощью робокурьеров, а также целый спектр промышленных применений — например, инспекция объектов, участие в сборочных процессах на производственных линиях и паллетирование продукции. Одно из перспективных направлений для скорого внедрения — автоматизация научных лабораторий, где автономные роботы смогут проводить «мокрые» эксперименты типа синтеза различных молекул.
— Как решается проблема безопасности при взаимодействии роботов с людьми в реальных условиях?
— Для этого существует отдельный класс роботов — коллаборативные роботы, они же коботы. В них предусмотрена защита в случае незапланированного взаимодействия с человеком. Они быстро детектируют соприкосновение и сразу же останавливают определенные операции. Внутрь встраиваются системы защиты, а саму инженерную оболочку робота конструируют таким образом, чтобы у него были обтекаемые формы, чтобы нельзя было порезаться, в общем, нанести физический ущерб. Кроме того, при обучении роботов часто используют данные со встроенными ограничителями. В большинстве случаев этого хватает — например, на заводах, где и у людей, и у роботов есть четкий алгоритм поведения.
— Ждать ли нам повсеместного внедрения антропоморфных роботов?
— Повсеместного внедрения роботизированных систем ждать нужно — это неизбежный этап технологического развития. Однако ожидать доминирования исключительно человекоподобных роботов не стоит. Будущее скорее связано с разнообразием форм-факторов, оптимально адаптированных под конкретные задачи. Антропоморфная структура далеко не всегда удобна. Зачем создавать «железного человека» для задач, с которыми лучше справится колесный робот или манипулятор-щуп? Массовое применение скорее найдут колесные роботы, четвероногие платформы и другие конструкции. Ключевым критерием станет функциональность, а не обязательное сходство с человеком.
— Какие тренды в интеллектуальной робототехнике вы считаете наиболее значимыми в ближайшие пять-десять лет?
— Развитие и интеграция базовых поведенческих моделей, о которых я не устаю говорить. Ожидается существенный прогресс в VLA-моделях и других фундаментальных поведенческих моделях. Критически важным направлением станет их более глубокая интеграция с методами оптимального управления. Это необходимо для достижения высокой стабильности, повторяемости и снижения вариативности результатов по сравнению с чисто обучаемыми подходами. Я бы также отметил усиление связи между высокоуровневым (планирование, принятие решений) и низкоуровневым (непосредственное исполнение) управлением. Это явно способствует созданию надежных архитектур.
— Какие вызовы стоят перед наукой в сфере робототехники и какие задачи до сих пор остаются нерешенными?
— Конечно, надежность управления в неопределенных условиях. Пока еще сохраняется высокий уровень ошибок в системах управления, особенно когда цель задана не абсолютно четко. Роботы не способны стабильно выполнять одну и ту же задачу многократно без исключительно жесткой спецификации цели.
Скорость и производительность — еще один вызов. На днях робособака из Китая побила рекорд по скорости бега, который ранее принадлежал собаке от Boston Dynamics. Четвероногий достиг скорости в 10,3 м/сек., обойдя мировой рекорд бегуна Усейна Болта. Впечатляет? Конечно, но важно не забывать, что это основная задача этого робота — бег на дистанцию. Когда мы переходим к роботам бытового и промышленного назначения, операции усложняются, машине необходимо обрабатывать большое количество сигналов. В итоге длительное время, необходимое для стабилизации, приводит к очень медленному выполнению задач. Видели когда-нибудь робофутбол? Думаю, ярый фанат классической игры с мячом точно бы зазевался. Так что приоритетной задачей будет существенное ускорение систем управления до работы в режиме реального времени без компромиссов в их способности к обобщению и функционированию в условиях неопределенности.