Искусственный интеллект (ИИ) с каждым днем все больше и больше проникает в жизнь людей, помогает автоматизировать процессы, значительно упрощает и ускоряет их.
Александр Безносиков
Фото: Предоставлено пресс-службой МФТИ
Бурные обсуждения вызвал продукт компании OpenAI — языковая модель GPT, которая уже умеет общаться с людьми, писать осмысленные тексты, в том числе научные, решать простые математические задачи. Более того, GPT сдает имитированный экзамен на звание адвоката, показывая результат на уровне 10% лучших выпускников. В основе обучения искусственного интеллекта лежит довольно простая идея решения задачи оптимизации (минимизации), с которой многие из нас сталкивались и даже не подозревали об этом. Такого рода задачами занимается коллектив лаборатории математических методов оптимизации МФТИ. Механику раскрывает научный сотрудник лаборатории Александр Безносиков.
Белый ящик для оптимизатора
Принято считать, что искусственный интеллект — это черный ящик, который магическим образом умеет решать различного рода задачи. Но на самом деле внутри такого ящика все очень логично устроено. Поэтому если уж считать искусственный интеллект ящиком, то белым. В ИИ-сообществе принято называть такой ящик моделью. Мы можем запихивать в эту модель некоторые объекты и просить искусственный интеллект что-то с ним сделать. Например, можно показать картинку и спросить, что на ней изображено, или ввести неправильно написанное слово и попросить скорректировать его. При этом изначально белый ящик практически бесполезен, потому что он пока не знает, какие задачи ему придется решать, но он обладает набором параметров, который мы можем настраивать, чтобы модель выдавала правдоподобные результаты. Суть настройки заключается в том, чтобы «подогнать» работу модели под нужную нам зависимость входного объекта (картинки или слова) и итогового ответа. В случае самых простых моделей искусственного интеллекта параметры белого ящика можно подобрать довольно просто. Например, узнав цвет и массу машины, мы хотим, чтобы искусственный интеллект предсказывал, грузовая она или легковая. В самом простом виде алгоритм предсказания можно сконструировать так:
Если (Параметр_1 * Признак_1 (масса) + Параметр_2 * Признак_2 (цвет) > Признак_3 (референсное значение)), то машина грузовая.
Интуиция нам подсказывает, что один из признаков объекта (масса) значительно важнее, поэтому мы можем настроить параметры модели так, что параметр, отвечающий за цвет машины, будет равен 0, и алгоритм предсказания типа машины будет исходить только из одного признака — веса, а также из некоторого референсного значения веса, больше которого значительная доля машин является грузовой.
В данном примере мы настроили работу модели по наитию, но когда белый ящик становится больше, количество его параметров значительным, а связи между признаками объекта не такими очевидными, нам уже сложно самостоятельно настроить модель. Необходимы автоматические методы настройки. Здесь основную роль играют численные методы оптимизации, так как львиная доля задач обучения являются задачами оптимизации.
Процесс обучения можно, например, формализовать следующим образом. У нас есть изначальная модель, и есть большой набор данных, с помощью которых мы можем настроить наши параметры, просто потому что для этих данных мы уже знаем правильные ответы (например, что на картинке изображена собака, а слово, в котором мы ошиблись, было «искуственный»). Тогда мы можем подавать модели наши объекты (картинки или тексты) и спрашивать ответ. Если ответ неверный, то штрафовать модель за ошибку. Наша задача минимизировать (оптимизировать) суммарный штраф, который мы получим по всем имеющимся у нас данным, за счет настройки параметров модели. Методов решения минимизации риска много, например, один из классических и популярных до сих пор — метод градиентного спуска, восходит еще к французскому математику XVIII века Огюстену Коши.
Большие модели, большие данные
Между тем современные реалии подталкивают инженеров разработчиков использовать все более огромные модели. Это естественный процесс: чем больше модель, тем она больше умеет, может обучиться на большее число закономерностей, тоньше чувствует различия между объектами. Если известная модель искусственного интеллекта для решения различного рода задач, связанных с обработкой текстов (от перевода до определения настроения автора), BERT от компании Google, появившаяся на рубеже 2018–2019 года, насчитывала 340 млн параметров, то третья версия уже упомянутой GPT, вышедшая в середине 2020 года, насчитывала 340 млрд параметров. А в 2023 Google представила новую ИИ-модель PaLM-E для робототехники, компьютерного зрения и текста с 562 млрд параметров!
Ровно такая же ситуация и с наборами данных, на которых обучаются современные модели искусственного интеллекта. Относительно давно появившийся, но все еще один из самых популярных наборов картинок ImageNet содержит более 150 гигабайт информации. И это не предел! Новые наборы данных картинок и текстов уже весят не гигабайты, а терабайты, десятки терабайтов. Область создания новых вычислительных устройств также бурно развивается, пытаясь угнаться за потребностями искусственного интеллекта, ведь чтобы настроить огромную модель на огромном наборе данных, нужно решить сложную задачу оптимизации, которая требует соответствующий вычислительный ресурс. Но несмотря на появление все более совершенных вычислительных устройств (процессоров и видеокарт), задачи обучения современного передового искусственного интеллекта сложно эффективно решать за адекватное время без распараллеливания процесса обучения. Суть этого подхода заключается в распределении большой задачи оптимизации между устройствами (иногда число устройств исчисляется тысячами) и решении ее по частям на всех устройствах одновременно.
Передний край
Современная наука, отталкиваясь от распределенного обучения, создала новые парадигмы, подветви распределенного обучения — коллаборативное и федеративное. В классическом распределенном обучении предполагается, что задача оптимизации решается параллельно на устройствах одного и того же пользователя, например, на каком-то вычислительном кластере, который представляет собой комнату или даже небольшой дом, полностью забитый процессорами и видеокартами. Коллаборативное обучение говорит о том, что таким вычислительными ресурсами могут обладать только IT-гиганты, но обучать для своих потребностей что-то современное и новое хочется всем, поэтому почему бы небольшим игрокам, обладающим не самыми значительными вычислительными мощностями, не объединить свои ресурсы для общей цели. Федеративное обучение же идет еще дальше и предполагает, что теперь данные, на которых происходит обучение,— не открытые архивы из интернета, а локальные данные пользователей с их смартфонов, планшетов и компьютеров. Это значительно увеличивает данные, на которых можно обучать искусственный интеллект, позволяет делать процесс обучения более клиентоориентированным. Поэтому вычислительные мощности, которые будут задействованы в процессе обучения,— это в том числе мощности пользовательских персональных устройств.
Такие новые постановки распределенного обучения открывают новые горизонты для развития искусственного интеллекта. Классическое распределенное, что коллаборативное, что федеративное, обучение порождает массу новых вопросов к научно-инженерному сообществу, занятому созданием эффективных алгоритмов решения задач оптимизации, а значит и задач обучения.
Новые возможности — новые задачи
Большая часть вопросов связана с коммуникационным процессом. Так как теперь задача оптимизации решается на разных устройствах по частям, нужно постоянно синхронизировать обучение между вычислителями, а поэтому должен быть налажен процесс общения. Но между тем коммуникации в данном случае будут выступать избыточной тратой времени, которая замедляет процесс обучения. Эта проблема актуальна для классического кластерного распределенного обучения и еще более актуальна для коллаборативного и федеративного обучений, так как теперь устройства чаще всего связаны между собой через беспроводную сеть, которая значительно замедляет связь, а значит и весь процесс обучения.
Но еще большей головной болью в вопросе коммуникаций федеративной парадигмы является приватность, ведь мы же работаем с персональными данными пользователей, который ни в коем случае не должны попасть ни частично, ни тем более полностью третьей стороне. Научное сообщество здесь работает в двух направлениях — защита приватности и взлом пересылаемой информации. Такой состязательный подход подстегивает оба направления исследований, ускоряя их.
Снова затрагивая федеративное обучение, не можем не отметить факт, что пользователь может не просто иметь плохое соединение, а вовсе отключиться от совместного процесса обучения, например, в случае физического отключения устройства из-за разрядки аккумулятора или чтобы не перегрузить устройство дополнительными вычислениями при активном использовании гаджета пользователем (никто не хочет, чтобы ни с того ни с сего телефон в руках начал перегреваться и работать нестабильно). К таким проблемам нужно быть также готовым и организовывать решение задачи оптимизации устойчиво и адаптивно к поведению каждого отдельного пользователя.
Федеративная парадигма также порождает и эгоистические потребности к процессу обучения. А именно, каждому пользователю по отдельности абсолютно неважно, как работает итоговая модель на данных других пользователей, ему интересно только то, как итоговый результат отражается на его конкретных картинках кошечек, собачек или машинок. Поэтому возникает вопрос персонализации процесса обучения и работы искусственного интеллекта. Получается некоторая игра, что пользователю интересна модель, обученная только на его данных, но проблема заключается в том, что локальных данных на каждом отдельном устройстве может быть недостаточно для качественного обучения, а использование информации от других пользователей может улучшить процесс обучения, но испортить персонализацию.
Бурное развитие искусственного интеллекта порождает все новые и новые вопросы к научному сообществу оптимизаторов. И кажется, что такой тренд будет усиливаться, создавая необычные и важные области исследований, интересные как с точки зрения математики, так и с точки зрения приложений в реальной жизни.
В эпоху искусственного интеллекта.