Сварить кофе в любой обстановке
Первая в России мультимодальная модель в искусственном интеллекте OmniFusion
В научно-исследовательском Институте искусственного интеллекта AIRI разработали ИИ-модель OmniFusion, которая умеет анализировать и описывать изображения. Также она может отвечать на вопросы по картинке и вести диалог с пользователем.
Андрей Кузнецов
Фото: Предоставлено Института искусственного интеллекта AIRI
«Ъ-Наука» поговорил с Андреем Кузнецовым, к.т.н., руководителем группы FusionBrain Института AIRI о том, что такое мультимодальность, как она может помочь починить сломанные устройства и даже вылечить человека.
— Что такое мультимодальность в ИИ и почему это сейчас является главным трендом?
— Мультимодальность — способность системы искусственного интеллекта работать с несколькими типами данных одновременно. Е можно сравнить с процессом общения людей: мы давно перестали обмениваться исключительно текстовыми сообщениями, отправляя друг другу также фото, аудио, видеоролики. Человек по своей природе мультимодален: он обладает несколькими системами восприятия (зрением, слухом, обонянием и т. д.) и поэтому может одновременно воспринимать различные формы представления информации — системы ИИ со временем тоже должны прийти к такому.
На деле это выглядит следующим образом: пользователь может снять короткое видео и попросить ИИ описать снятую ситуацию или спросить, как она могла случиться, отправить картинку, например, какого-нибудь устройства и спросить, как его починить. Несколько лет назад такие модели только начинали появляться, сегодня есть даже open-source версии — то есть с открытым исходным кодом и находящиеся в свободном доступе.
— Как мультимодальный искусственный интеллект повлияет на другие области: медицину, промышленность, финансы?
— Мультимодальный искусственный интеллект со временем научится анализировать различные виды специализированной информации и отвечать на вопросы по ее содержанию. В финансах это могут быть графики, отображающие движения на фондовых рынках, в медицине — рентгенограммы и данные ЭЭГ.
В прошлом году мы увидели яркий пример того, как искусственный интеллект может выступать полноценным ассистентом врача. В течение трех лет 17 врачей пытались определить болезнь ребенка из США, однако специалисты расходились во мнениях, а назначенное лечение не помогало. Отчаявшись, его мама загрузила в ChatGPT симптоматику и результаты исследований, после чего бот обнаружил редкий диагноз — синдром фиксированного спинного мозга. Позже его подтвердили нейрохирурги, которые сделали операцию и смогли вылечить ребенка.
По моим прогнозам, в ближайшие несколько лет подобных практических применений мультимодального ИИ станет больше. Причем он будет внедряться в новые среды — например, в робототехнику: человек сможет дать роботу инструкцию и попросить выполнить определенное действие. Есть простая задача, демонстрирующая разницу между тем, как работает человеческий мозг и робот,— сварить кофе в неизвестной обстановке. Для нас это выглядит просто, потому что мы понимаем, где на любой кухне может лежать кофе в капсулах, как выглядит кофемашина, где розетка, где вода. Роботу же без четкой инструкции это сделать практически невозможно, потому что у него отсутствуют «человеческое» восприятие мира и жизненный опыт. Буквально месяц назад робот смог выполнить эту сложную задачу, и специалисты в робототехнике назвали это моментом ChatGPT в робототехнике.
Поэтому, когда мы достигнем того, что мультимодальный ИИ полноценно встроится в роботов, это станет существенным прорывом и поможет решению многих задач управления и ориентации в неизвестной среде, в том числе найдется применение во многих индустриальных задачах. Например, мы сможем автоматизировать склады: давать роботу инструкцию по разгрузке приехавшей фуры и лишь следить за ее выполнением, а также получим полноценного помощника по дому и хозяйству — сможем решить большое число рутинных задач.
— Вы говорите о том, что OmniFusion — первая в России мультимодальная ИИ-модель. В чем ее суть и принципиальное отличие от всех других, представленных на рынке?
— Технология позволяет с помощью специальных адаптеров научить языковую модель понимать новый язык — язык изображений. В основе лежит большая языковая модель (концентрат знаний), на базе которой построена наша технология. Подход OmniFusion позволяет с помощью адаптеров превращать изображения в эмбеддинги — числовые векторы, понятные языковой модели. Для нее это выглядит как изучение нового языка — набора значений, которые представляют для модели изображение. После этого модель уже может решать всевозможные задачи: отвечать на вопросы по картинке, вести диалог с использованием различных форматов.
По ключевым метрикам модель сопоставима с зарубежными аналогами. При этом мы стараемся ее постоянно улучшать и насыщать новыми знаниями. Обучением модели занимаемся совместно с коллегами из Sber AI и SberDevices.
— Чем она может быть полезна обычным пользователям? Какие задачи с помощью нее можно выполнять?
— OmniFusion поможет пользователям сэкономить время на выполнении простых задач и вопросов, возникающих в повседневной жизни. Например, в случае поломки какого-либо кабеля от техники его можно сфотографировать и уточнить верное название. Гуляя по незнакомому городу, можно сфотографировать объект и услышать полноценную экскурсию с деталями постройки и выдающимися людьми, которые там жили. Можно загрузить медицинские снимки и перед походом к врачу предварительно ознакомиться с результатами анализа. А можно сфотографировать появившуюся ошибку после запуска компьютера и уточнить, как ее исправить.
Так, модель сможет помочь пользователям во многих вопросах, где мы обычно используем фото, изображения, отсканированные файлы. В дальнейшем мы научим ее понимать видео, аудио и другие модальности, совершив еще один шаг к созданию сильного искусственного интеллекта, или AGI.
— Могут ли OmniFusion использовать ученые или представители бизнеса в научных или бизнес-целях? Если да, то как?
— Для того чтобы использовать модель в научных или исследовательских целях, ее необходимо дообучить на специальной выборке в зависимости от направления или отрасли. В промышленности это может выглядеть следующим образом: на заводе по производству металлических изделий есть фотобаза выпущенной продукции. Какие-то детали помечены как эталонные, другие — как брак. Выборка загружается в модель, после чего OmniFusion по визуальному контексту понимает, что не так с материалом, почему возникли дефекты, а главное — как избежать их в будущем. Научив модель понимать визуальный концепт, она сможет давать точечные ответы под конкретную индустрию и задачу.
— Как долго вы работали над ней? Что было самым сложным?
— Направление мультимодального искусственного интеллекта в AIRI развивается с 2021 года. Ранее мы разрабатывали модель RUDOLPH — она также умела взаимодействовать с картинками и текстом, но обладала некоторыми архитектурными недостатками, которые усложняли ее использование. В 2022 году работа была приостановлена, но полученные выводы мы использовали для улучшения новой архитектуры OmniFusion и формирования новых способов ее обучения. Активная разработка OmniFusion началась со второй половины 2023 года, сейчас мы постоянно доучиваем ее, развиваем и вносим различные архитектурные изменения, позволяющие насыщать модель знаниями, добавляя возможности решения новых задач из разных областей: математики, медицины и др.
— Какие дальнейшие планы по развитию OmniFusion?
— В первую очередь поиск дополнительных способов кодирования визуальной информации, чтобы модель могла извлекать больше сведений из массивов изображений. Также это разработка новых эффективных энкодеров для конвертации аудио, видео и 3D-информации в требуемый формат. В планах также научить модель генерировать на выходе не только текст, но и изображения.
Кроме того, мы хотим научить мультимодальную модель работать с роботизированными устройствами (Embodied AI, или воплощенный ИИ), уметь понимать инструкции и одновременно оперировать разными типами данных для решения сложных робототехнических задач.
— Какими еще разработками кроме OmniFusion вы занимаетесь внутри научной группы FusionBrain?
— Мы учим модели общаться между собой и разрабатываем мультиагентные механизмы коммуникации — процесс можно сравнить с мозговым штурмом у людей, когда в результате коллективных обсуждений находится более быстрый и интересный ответ. Для этого необходимо сначала определить сильные стороны моделей через автоматически подбираемые промты — вводные запросы. Затем очертить правила игры, например, в запросе указать, что будет происходить диалог между тремя моделями, у каждой из которых будет по одной реплике на каждый круг. При этом каждой модели мы автоматически синтезируем правильную «роль», необходимую для решения исходной задачи. Таким образом, модели начинают общаться, а каждый следующий их ответ формирует контекст, что насыщает информацией контекст для обсуждений. В результате спустя несколько кругов модели приходят к общему ответу, который с большей вероятностью правильный. Проводя эксперименты на датасетах с задачами, где ответ можно получить только путем рассуждения, такие мультиагентные механизмы дают лучшие ответы, чем унитарные языковые модели.
Есть задачи, связанные с генеративным искусственным интеллектом: исследуем различные архитектуры по синтезу видео, изображения, скоро приступим к синтезу 3D-объектов и других мультимедийных форм представления данных. Мы являемся научным партнером «Сбера» и совместно с командами Sber AI и SberDevices разработали линейку моделей Kandinsky.
Также занимаемся исследованиями, чтобы понимать и решать задачу интерпретируемости знаний языковой модели. То есть как понять, что модель знает хорошо, а что не знает совсем? Необходимо исследовать внутренние свойства, учесть структуру и архитектуру для того, чтобы определить, как ее дистиллировать (уменьшать), в итоге получив меньшее потребление памяти и вычислительных мощностей, ускорив время генерации ответов при сохранении общего качества ответов.
Подготовлено при поддержке Института искусственного интеллекта AIRI