Скальпель вместо молотка
Что такое доверенный искусственный интеллект и как работают атаки на нейросети
На конференции ICLR в Бразилии российские ученые представили исследование, что один из популярных способов тонкой настройки языковых моделей может неожиданно приводить к отключению встроенных механизмов безопасности. Эффект воспроизвелся даже через публичный API и в многоязычных сценариях, включая португальский язык.
Олег Рогов
Фото: из личного архива
Олег Рогов
Фото: из личного архива
Чтобы узнать, что результаты работы говорят о природе современных механизмов киберзащиты ИИ и что такое направление доверенного искусственного интеллекта, «Ъ-Наука» поговорил с Олегом Роговым, кандидатом физико-математических наук, руководителем научной группы «Доверенные и безопасные интеллектуальные системы» Института AIRI и лаборатории безопасного ИИ AIRI-МТУСИ.
— Что такое атаки на ИИ и какими они бывают?
— Атаки на ИИ — это попытки намеренно «сбить» модель, как правило языковую, с правильного поведения и заставить ее делать то, чего разработчики изначально не планировали. Еще в середине 2010-х годов в области состязательного машинного обучения начали изучать, как можно обмануть модели. Например, существуют атаки уклонения (adversarial examples), когда во входные данные вносят почти незаметные изменения, но модель из-за них начинает ошибаться. Есть и «отравление» данных, когда в обучающую выборку специально добавляют искаженные или вредные примеры, чтобы модель с самого начала училась неправильно.
Со временем внимание переключилось и на более глубокие уязвимости. Так, извлечение модели (model extraction) — это попытка восстановить ее устройство, просто задавая большое количество запросов. Инверсия модели (model inversion) позволяет по ответам модели попытаться восстановить данные, на которых она обучалась. А атаки на вывод членства (membership inference) направлены на то, чтобы определить, входил ли конкретный объект в обучающую выборку, что уже связано с использованием приватной информации.
С появлением больших языковых моделей возник новый класс угроз — атаки на выравнивание (alignment attacks). Выравнивание — это процесс, с помощью которого модель учат следовать определенным правилам, например не генерировать запрещенный законодательством контент. Соответственно, такие атаки нацелены на то, чтобы заставить модель игнорировать эти ограничения. Сюда относятся джейлбрейки (jailbreaks), то есть специально сформулированные запросы, обходящие защитные механизмы, промпт-инъекции (prompt injection), когда в текст подмешиваются скрытые инструкции, влияющие на поведение модели, а также многошаговые манипуляции, при которых модель постепенно «подводят» к нежелательному ответу. Отдельно можно выделить эксплуатацию цепочки рассуждений — попытку использовать пошаговое мышление модели, чтобы запутать ее,— и атаки через инструменты у ИИ-агентов, когда модель вынуждают неправильно использовать подключенные сервисы.
Если обобщить, все эти атаки объединяет одна фундаментальная особенность: пространство возможных входных данных большое, а в обучении модель сталкивается лишь с его небольшой частью. При этом граница между «безопасным» и «опасным» поведением задается не строгими формулами, а статистически, то есть на основе примеров. Поэтому почти всегда можно найти такой запрос, который позволит эту границу обойти. Вопрос лишь в том, насколько сложно и затратно будет его обнаружить.
— Чем занимается направление доверенного ИИ? Какие главные вызовы стоят перед исследователями сегодня?
— Доверенный ИИ — это область, которая разрабатывает технические подходы, позволяющие создавать системы, которым можно безопасно делегировать принятие решений. Здесь речь идет о совокупности свойств. Например, устойчивость — это способность модели сохранять корректное поведение даже при сбоях или атаках; интерпретируемость — возможность понять, как именно модель пришла к своему ответу; приватность — защита данных пользователей и обучающей выборки, а также выравнивание (alignment), то есть наличие у системы встроенных правил и ограничений, определяющих допустимое поведение.
Сейчас перед исследователями стоит несколько ключевых проблем. Первая — масштаб: методы, которые хорошо работали на относительно небольших моделях, плохо переносятся на современные крупные системы с огромным числом параметров. Вторая — нехватка строгих определений. Мы пока не можем точно и формально описать, что значит «модель не лжет» или «ведет себя честно», а без этого невозможно строить строгую теорию и доказывать надежность. Третья проблема — разница между лабораторией и реальностью. В тестах модели проверяют на ограниченных задачах, а при реальном использовании они сталкиваются с гораздо более сложной средой: мультимодальными входами (например, текст и изображения одновременно), длинными контекстами, внешними инструментами, другими моделями и целеустремленными пользователями.
— На ICLR вы представили работу о том, что одна из популярных техник тонкой настройки языковых моделей может фактически отключать встроенные защитные механизмы. Что именно вы обнаружили и почему эта уязвимость кажется вам принципиально важной для всей индустрии?
— В этой работе мы исследовали технику управления активациями (activation steering). Это способ влиять на поведение модели без изменения ее весов, то есть параметров, выученных при обучении: вместо этого в ее внутренние состояния во время работы — инференса, момента, когда модель отвечает на запрос,— добавляют специальный вектор. Считалось, что это дает точечное, интерпретируемое, контролируемое вмешательство — скальпель вместо молотка.
Эмпирически мы обнаружили три факта, каждый из которых неприятен по-своему. Первый — steering даже в случайном направлении систематически ломает выравнивание. Модель, которая на вредоносных запросах выдает ноль процентов согласий, под случайным вмешательством в активации начинает соглашаться с вероятностью от 2% до 27% в зависимости от семейства. Второй — если использовать так называемые осмысленные направления, полученные, например, с помощью разреженных автоэнкодеров (sparse autoencoders, SAE — моделей, выделяющих компактные и интерпретируемые признаки), а именно SAE сейчас активно продвигаются как путь к интерпретируемости и через нее к управляемости, частота вредоносного согласия растет еще на 2–4%. То есть направления, которые называют осмысленными и безвредными, могут использоваться и как инструмент обхода защит. Самый показательный результат — возможность создать универсальную атаку. Если взять несколько случайных векторов, каждый из которых влияет на поведение модели в одном конкретном случае, и объединить их, получается воздействие, которое работает уже и на новых, ранее не встречавшихся запросах.
И главный вывод здесь шире самой техники. В индустрии часто предполагается, что чем лучше мы понимаем модель через интерпретируемость, тем лучше можем ее контролировать и делать безопасной. Но эта работа показывает, что такое предположение не всегда верно и контроль над внутренними механизмами модели не гарантирует контроль над ее фактическим поведением. Поэтому инструменты интерпретируемости нельзя автоматически считать инструментами безопасности.
— В вашей работе описана ситуация, когда модель отказалась писать спам-письмо, но после определенной активации согласилась, предварив ответ оговоркой «только в образовательных целях». Что это за явление?
— При использовании управления активациями использованная модель выполняла нежелательный запрос, но автоматически добавляла к нему привычные «защитные» формулировки, например «только в образовательных целях». В результате получилось расхождение: слой предупреждения и дисклеймеров продолжал работать, а слой реального отказа — уже нет.
Это связано с более общей проблемой: модели оптимизируются не по тому, что нас на самом деле интересует, например жесткий отказ от каких-то действий, а по косвенным признакам, так называемым прокси. Прокси — это измеримые показатели, которые лишь приближенно отражают цель. Но такие показатели можно обойти. Здесь проявляется классический Закон Гудхарта: как только метрика становится целью, она перестает быть надежной метрикой.
Нам пока не хватает понимания того, что именно внутри модели соответствует подлинному «отказу». Это вопрос о представлении смыслов, ценностей или каких-то других внутренних структур? Пока такого понимания нет, граница между реальным запретом и его убедительной имитацией неизбежно остается размытой.
— Атака у вас сработала на публичном API и на португальском языке. Почему именно многоязычность так часто оказывается слабым местом современных LLM?
— Сразу стоит уточнить: атаки через другие языки — это не главный результат работы, а скорее хорошо известная проблема, которая напрямую связана с ее выводами. И объясняется она довольно просто — «арифметикой» обучающих данных.
Большая часть данных, на которых обучаются не российские современные модели, приходится на английский язык — около 90% общего объема, а в высококачественных размеченных данных, связанных с безопасностью, эта доля обычно еще выше. А такие языки, как португальский, индонезийский, суахили или, скажем, узбекский, попадают в так называемый длинный хвост — это означает, что данных по ним существенно меньше, особенно в части, где поведение модели специально корректируется людьми.
В результате возникает асимметрия: базовые способности модели хорошо переносятся на разные языки благодаря мультиязычному предобучению, а вот ограничения и правила поведения — гораздо хуже. Иными словами, модель «умеет говорить» на многих языках, но «правила приличия» усваивает в основном на английском. Получается, что потенциально опасное поведение оказывается покрыто обучающими данными неравномерно: где-то, например в английском, оно хорошо «закрыто», а где-то остаются пробелы.
— Какие классы уязвимостей в ИИ сегодня кажутся вам наиболее недооцененными?
— Я бы выделил три. Первый — атаки на агентные системы через инструменты. Например, модель с доступом к браузеру, почте, файловой системе превращается в исполнителя инструкций, которые могут прийти из внешнего источника, и внутри у нее не будет «инструкции от пользователя» и «инструкции со страницы». Это, на мой взгляд, главный класс рисков ближайших двух-трех лет. Второй — «отравление» через поиск: RAG-системы доверяют своему индексу, а индекс часто строится на открытых данных, которые можно подделать. Третий, связанный непосредственно с нашей работой,— уязвимости интерпретируемых техник управления. Сообщество сейчас активно разрабатывает методы, основанные на понимании внутренностей модели: representation engineering, SAE-тестирование признаков, concept editing. Все они опираются на предположение, что точное вмешательство дает точный результат. Мы показываем, что это не так, и значит, скоро появится целый класс атак, эксплуатирующих именно эти инструменты.
— Как меняется научная повестка в области безопасного ИИ? Что сегодня важнее: искать все новые уязвимости, разрабатывать практические методы защиты или что-то еще?
— Поиск уязвимостей — самое развитое направление. Оно активно приносит результаты и, скорее всего, еще долго будет это делать, но предельная польза направления снижается, потому что каждая новая атака подтверждает уже известное свойство хрупкости.
Практические методы защиты — различные фильтры, дообучение, корректировка поведения — дают ощутимые, но локальные улучшения. Они чаще всего работают реактивно. Без более глубокой теории такие решения трудно обобщать и системно развивать.
Формальные гарантии — пожалуй, самое малоизученное из-за новизны и одновременно самое важное направление. Речь идет о том, чтобы строго, математически определить, что такое «безопасное поведение» модели, и уметь это гарантировать. Сейчас исследовательское сообщество ищет единые определения и четкие формулировки для описания безопасного поведения моделей.
Я думаю, что в долгосрочной перспективе неизбежно переосмысление архитектур. Текущий подход, когда к базовой архитектуре, например трансформеру, добавляют сверху слои безопасности, хорошо справляется с конкретными задачами, но не меняет природу проблемы. Отсюда растет интерес к альтернативам типа систем с явным разделением «знания» и «действия», когда модель отдельно хранит информацию и отдельно принимает решения, к нейросимвольным подходам или к архитектурам с проверяемыми инвариантами, то есть свойствами, которые гарантированно сохраняются при любых условиях работы. Пока такие идеи остаются на периферии, но есть основания ожидать, что в ближайшие лет пять они выйдут в мейнстрим.
— Вы работаете на стыке фундаментальной науки и прикладной безопасности. Насколько сегодня российская исследовательская школа в области доверенного ИИ встроена в международный контекст?
— Российская исследовательская традиция, особенно в математике, дает очень сильную базу для направлений, связанных с доверенным ИИ. Речь идет о таких областях, как функциональный анализ, оптимизация, теория вероятностей и информации, а также теория сложности. Именно эти дисциплины лежат в основе формальных подходов к безопасности ИИ: робастности, то есть устойчивости моделей к сбоям и атакам; дифференциальной приватности — методов защиты данных, при которых невозможно восстановить информацию о конкретных пользователях; теоретико-информационного анализа моделей и формальной верификации.
Если посмотреть на международные публикации последних лет, особенно по интерпретируемости и анализу больших нейросетей, заметно, что значительная часть работ связана с исследователями, имеющими российскую математическую подготовку. Это хорошо видно по составу авторов на ведущих конференциях. Влияние школы остается существенным, даже если сами исследования часто выполняются уже в международных лабораториях.
— Исследователи из Microsoft недавно описывали сценарии «отравления» памяти ИИ, когда внешние сайты пытаются незаметно встроиться в память ассистента как надежный источник. Видите ли вы здесь общий класс угроз, связанных с вашей работой?
— Да, это часть одной общей картины, и я считаю, что ее недооценивают. Произошел сдвиг парадигмы. Модель из функции «вход—выход» превращается в систему с состоянием, в которое входят кратковременная память контекста, долгосрочная память пользователя, инструментальная память агента. Каждый такой канал — это новый источник входов, по умолчанию воспринимаемых моделью как доверенные. Метод «отравления» памяти концептуально близок к промпт-инъекции, только распределен во времени. Вредоносная инструкция один раз попадает в долгосрочную память, например, когда ассистент «запоминает предпочтения пользователя» из внешнего сайта, и затем влияет на все последующие сессии.
С нашей работой это связано глубже, чем может показаться. И в случае управления активациями, и в случае атак на память используется одна и та же уязвимость: у модели есть внутренние состояния, они же активации, то есть промежуточные представления внутри нейросети, но в них нет четкого механизма различения «доверенного» и «недоверенного» сигнала. Общий класс угроз — атаки на информационную целостность внутренних состояний, и это, думаю, будет одним из центральных вызовов следующих лет.
— Если ИИ-системы действительно получают все более сложную память — краткосрочную, внешнюю, пользовательскую, инструментальную,— не возникает ли у нас новая фундаментальная проблема: мы учим модели помнить, но почти не учим их грамотно забывать?
— В машинном обучении есть область машинного «разобучения». В основном она про юридическое право пользователя на удаление данных. Системе нужно уметь решать, какие воспоминания устарели, какие были скомпрометированы, какие следует переоценить в свете новых данных, какие целенаправленно дезавуировать как ошибочные. У человека для этого есть консолидация памяти, активная переоценка, забывание малозначимого. У моделей сопоставимых механизмов нет, и что записано в память, то лежит с равным весом и одинаково готово к извлечению. Я думаю, в ближайшие годы это станет отдельным исследовательским направлением, тесно связанным с интерпретируемостью. Чтобы безопасно забывать, нужно сначала понимать, что именно знаешь и почему.
— Можно ли уже сегодня говорить о необходимости создания красных команд для ИИ по аналогии с кибербезопасностью? Как в идеале должен быть устроен такой аудит безопасности для языковой модели?
— Аналогия с кибербезопасностью здесь вполне уместна и на практике уже реализуется. У крупных компаний есть внутренние команды, занимающиеся поиском уязвимостей, работают программы bug bounty (вознаграждения за найденные ошибки.— «Ъ-Наука»), появляются специализированные организации, тестирующие ИИ-системы на прочность. Но есть и важное отличие от классической кибербезопасности. В традиционных системах уязвимость обычно можно локализовать. Это конкретный баг в коде, конкретная запись в базе известных уязвимостей, которую можно исправить «заплаткой» и затем проверить. В случае ИИ все гораздо более «размазано». Уязвимости распределены по параметрам модели и ее внутренним состояниям, их нельзя просто «починить» в одном месте, да и исправление одной проблемы иногда создает новую.
Идеальный аудит безопасности для языковых моделей должен быть многослойным. Он включает автоматическое тестирование, массовую проверку модели на наборе сценариев, а также ручную работу экспертов, причем с разной специализацией, например в биологии, химии или кибербезопасности, в зависимости от рисков. Важны и сложные, многошаговые сценарии взаимодействия, где модель ведет себя как агент, а не просто отвечает на один вопрос. Кроме того, стоит тестировать не только внешнее поведение, но и внутренние механизмы. Например, через вмешательство в активации, как это делается в нашей работе. И наконец, критически важен мониторинг после развертывания, наблюдение за тем, как система ведет себя в реальной среде.
Ключевой момент в том, что такой аудит не может быть разовой процедурой «сертификации». Это должен быть непрерывный процесс, потому что сами модели, их окружение и способы атак постоянно меняются.
— Если попробовать посмотреть на несколько лет вперед, каким должен стать безопасный ИИ?
— Если смотреть на несколько лет вперед, важно сразу зафиксировать ключевую мысль: безопасность ИИ — это не какое-то раз и навсегда заданное свойство модели. Это непрерывный процесс с обратной связью. В нем есть формальные требования, то есть четко сформулированные критерии безопасности, проверяемые реализации, инструменты верификации и проверки того, что система действительно этим критериям соответствует, культура фиксации и описания инцидентов.
Скорее всего, в ближайшие годы произойдет несколько заметных сдвигов. Во-первых, появятся стандартизированные протоколы оценки — что-то вроде соревнований и тестов, аналогичных тем, которые проводят в криптографии. Это будут открытые наборы задач и тестов с публичными результатами, позволяющими сравнивать модели по единым критериям безопасности, а не по разрозненным внутренним метрикам компаний.
Во-вторых, начнут формироваться так называемые компонуемые гарантии. Это означает, что можно будет делать более точные и ограниченные утверждения о безопасности: не просто «модель в целом безопасна», а, например, «эта модель безопасна для определенного класса входных данных и при этом соблюдает конкретный набор свойств». То есть безопасность станет более модульной и формализуемой, а не общей и расплывчатой характеристикой. В целом движение идет в сторону большей строгости, проверяемости и инженерной дисциплины, к системам, где безопасность можно четко описать, измерить и независимо проверить.