Сварить кофе в любой обстановке

Первая в России мультимодальная модель в искусственном интеллекте OmniFusion

В научно-исследовательском Институте искусственного интеллекта AIRI разработали ИИ-модель OmniFusion, которая умеет анализировать и описывать изображения. Также она может отвечать на вопросы по картинке и вести диалог с пользователем.

Андрей Кузнецов

Андрей Кузнецов

Фото: Предоставлено Института искусственного интеллекта AIRI

Андрей Кузнецов

Фото: Предоставлено Института искусственного интеллекта AIRI

«Ъ-Наука» поговорил с Андреем Кузнецовым, к.т.н., руководителем группы FusionBrain Института AIRI о том, что такое мультимодальность, как она может помочь починить сломанные устройства и даже вылечить человека.

— Что такое мультимодальность в ИИ и почему это сейчас является главным трендом?

— Мультимодальность — способность системы искусственного интеллекта работать с несколькими типами данных одновременно. Е можно сравнить с процессом общения людей: мы давно перестали обмениваться исключительно текстовыми сообщениями, отправляя друг другу также фото, аудио, видеоролики. Человек по своей природе мультимодален: он обладает несколькими системами восприятия (зрением, слухом, обонянием и т. д.) и поэтому может одновременно воспринимать различные формы представления информации — системы ИИ со временем тоже должны прийти к такому.

На деле это выглядит следующим образом: пользователь может снять короткое видео и попросить ИИ описать снятую ситуацию или спросить, как она могла случиться, отправить картинку, например, какого-нибудь устройства и спросить, как его починить. Несколько лет назад такие модели только начинали появляться, сегодня есть даже open-source версии — то есть с открытым исходным кодом и находящиеся в свободном доступе.

— Как мультимодальный искусственный интеллект повлияет на другие области: медицину, промышленность, финансы?

— Мультимодальный искусственный интеллект со временем научится анализировать различные виды специализированной информации и отвечать на вопросы по ее содержанию. В финансах это могут быть графики, отображающие движения на фондовых рынках, в медицине — рентгенограммы и данные ЭЭГ.

В прошлом году мы увидели яркий пример того, как искусственный интеллект может выступать полноценным ассистентом врача. В течение трех лет 17 врачей пытались определить болезнь ребенка из США, однако специалисты расходились во мнениях, а назначенное лечение не помогало. Отчаявшись, его мама загрузила в ChatGPT симптоматику и результаты исследований, после чего бот обнаружил редкий диагноз — синдром фиксированного спинного мозга. Позже его подтвердили нейрохирурги, которые сделали операцию и смогли вылечить ребенка.

По моим прогнозам, в ближайшие несколько лет подобных практических применений мультимодального ИИ станет больше. Причем он будет внедряться в новые среды — например, в робототехнику: человек сможет дать роботу инструкцию и попросить выполнить определенное действие. Есть простая задача, демонстрирующая разницу между тем, как работает человеческий мозг и робот,— сварить кофе в неизвестной обстановке. Для нас это выглядит просто, потому что мы понимаем, где на любой кухне может лежать кофе в капсулах, как выглядит кофемашина, где розетка, где вода. Роботу же без четкой инструкции это сделать практически невозможно, потому что у него отсутствуют «человеческое» восприятие мира и жизненный опыт. Буквально месяц назад робот смог выполнить эту сложную задачу, и специалисты в робототехнике назвали это моментом ChatGPT в робототехнике.

Поэтому, когда мы достигнем того, что мультимодальный ИИ полноценно встроится в роботов, это станет существенным прорывом и поможет решению многих задач управления и ориентации в неизвестной среде, в том числе найдется применение во многих индустриальных задачах. Например, мы сможем автоматизировать склады: давать роботу инструкцию по разгрузке приехавшей фуры и лишь следить за ее выполнением, а также получим полноценного помощника по дому и хозяйству — сможем решить большое число рутинных задач.

— Вы говорите о том, что OmniFusion — первая в России мультимодальная ИИ-модель. В чем ее суть и принципиальное отличие от всех других, представленных на рынке?

— Технология позволяет с помощью специальных адаптеров научить языковую модель понимать новый язык — язык изображений. В основе лежит большая языковая модель (концентрат знаний), на базе которой построена наша технология. Подход OmniFusion позволяет с помощью адаптеров превращать изображения в эмбеддинги — числовые векторы, понятные языковой модели. Для нее это выглядит как изучение нового языка — набора значений, которые представляют для модели изображение. После этого модель уже может решать всевозможные задачи: отвечать на вопросы по картинке, вести диалог с использованием различных форматов.

По ключевым метрикам модель сопоставима с зарубежными аналогами. При этом мы стараемся ее постоянно улучшать и насыщать новыми знаниями. Обучением модели занимаемся совместно с коллегами из Sber AI и SberDevices.

— Чем она может быть полезна обычным пользователям? Какие задачи с помощью нее можно выполнять?

— OmniFusion поможет пользователям сэкономить время на выполнении простых задач и вопросов, возникающих в повседневной жизни. Например, в случае поломки какого-либо кабеля от техники его можно сфотографировать и уточнить верное название. Гуляя по незнакомому городу, можно сфотографировать объект и услышать полноценную экскурсию с деталями постройки и выдающимися людьми, которые там жили. Можно загрузить медицинские снимки и перед походом к врачу предварительно ознакомиться с результатами анализа. А можно сфотографировать появившуюся ошибку после запуска компьютера и уточнить, как ее исправить.

Так, модель сможет помочь пользователям во многих вопросах, где мы обычно используем фото, изображения, отсканированные файлы. В дальнейшем мы научим ее понимать видео, аудио и другие модальности, совершив еще один шаг к созданию сильного искусственного интеллекта, или AGI.

— Могут ли OmniFusion использовать ученые или представители бизнеса в научных или бизнес-целях? Если да, то как?

— Для того чтобы использовать модель в научных или исследовательских целях, ее необходимо дообучить на специальной выборке в зависимости от направления или отрасли. В промышленности это может выглядеть следующим образом: на заводе по производству металлических изделий есть фотобаза выпущенной продукции. Какие-то детали помечены как эталонные, другие — как брак. Выборка загружается в модель, после чего OmniFusion по визуальному контексту понимает, что не так с материалом, почему возникли дефекты, а главное — как избежать их в будущем. Научив модель понимать визуальный концепт, она сможет давать точечные ответы под конкретную индустрию и задачу.

— Как долго вы работали над ней? Что было самым сложным?

— Направление мультимодального искусственного интеллекта в AIRI развивается с 2021 года. Ранее мы разрабатывали модель RUDOLPH — она также умела взаимодействовать с картинками и текстом, но обладала некоторыми архитектурными недостатками, которые усложняли ее использование. В 2022 году работа была приостановлена, но полученные выводы мы использовали для улучшения новой архитектуры OmniFusion и формирования новых способов ее обучения. Активная разработка OmniFusion началась со второй половины 2023 года, сейчас мы постоянно доучиваем ее, развиваем и вносим различные архитектурные изменения, позволяющие насыщать модель знаниями, добавляя возможности решения новых задач из разных областей: математики, медицины и др.

— Какие дальнейшие планы по развитию OmniFusion?

— В первую очередь поиск дополнительных способов кодирования визуальной информации, чтобы модель могла извлекать больше сведений из массивов изображений. Также это разработка новых эффективных энкодеров для конвертации аудио, видео и 3D-информации в требуемый формат. В планах также научить модель генерировать на выходе не только текст, но и изображения.

Кроме того, мы хотим научить мультимодальную модель работать с роботизированными устройствами (Embodied AI, или воплощенный ИИ), уметь понимать инструкции и одновременно оперировать разными типами данных для решения сложных робототехнических задач.

— Какими еще разработками кроме OmniFusion вы занимаетесь внутри научной группы FusionBrain?

— Мы учим модели общаться между собой и разрабатываем мультиагентные механизмы коммуникации — процесс можно сравнить с мозговым штурмом у людей, когда в результате коллективных обсуждений находится более быстрый и интересный ответ. Для этого необходимо сначала определить сильные стороны моделей через автоматически подбираемые промты — вводные запросы. Затем очертить правила игры, например, в запросе указать, что будет происходить диалог между тремя моделями, у каждой из которых будет по одной реплике на каждый круг. При этом каждой модели мы автоматически синтезируем правильную «роль», необходимую для решения исходной задачи. Таким образом, модели начинают общаться, а каждый следующий их ответ формирует контекст, что насыщает информацией контекст для обсуждений. В результате спустя несколько кругов модели приходят к общему ответу, который с большей вероятностью правильный. Проводя эксперименты на датасетах с задачами, где ответ можно получить только путем рассуждения, такие мультиагентные механизмы дают лучшие ответы, чем унитарные языковые модели.

Есть задачи, связанные с генеративным искусственным интеллектом: исследуем различные архитектуры по синтезу видео, изображения, скоро приступим к синтезу 3D-объектов и других мультимедийных форм представления данных. Мы являемся научным партнером «Сбера» и совместно с командами Sber AI и SberDevices разработали линейку моделей Kandinsky.

Также занимаемся исследованиями, чтобы понимать и решать задачу интерпретируемости знаний языковой модели. То есть как понять, что модель знает хорошо, а что не знает совсем? Необходимо исследовать внутренние свойства, учесть структуру и архитектуру для того, чтобы определить, как ее дистиллировать (уменьшать), в итоге получив меньшее потребление памяти и вычислительных мощностей, ускорив время генерации ответов при сохранении общего качества ответов.

Подготовлено при поддержке Института искусственного интеллекта AIRI

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...