Непрозрачный интеллект
Как отсутствие объяснений мешает внедрению ИИ
Языковые и аналитические модели ИИ учатся все быстрее и умеют все больше. Сегодня им можно поставить задачу от подбора персонала до управления беспилотными автомобилями, и алгоритм с ними с легкостью справится. Но когда модель отказывает в кредите, увольняет кандидата или предлагает неверный маршрут, разработчики не всегда могут объяснить, почему это произошло. Это называют проблемой черного ящика, и она создает юридические, финансовые и репутационные риски.
Фото: Евгений Павленко, Коммерсантъ
Фото: Евгений Павленко, Коммерсантъ
Что мы знаем о том, как работает ИИ
Несмотря на впечатляющую точность, скорость и умение решать сложные задачи, разработчики не могут с уверенностью объяснить, как большие языковые модели (LLM), такие как ChatGPT, Gemini или Deepseek, пришли к тому или иному выводу.
Проблема кроется в принципах обучения моделей. Сначала разработчики собирают датасет для обучения: книги, статьи, сайты, диалоги и прочее. Затем тексты очищаются и преобразуются в машиночитаемый вид, чтобы модель на них обучалась.
Модель анализирует текстовые данные и выявляет статистические связи: какие слова и конструкции чаще встречаются вместе. Постепенно модель начинает выявлять закономерности, контекст, грамматику и логику языка. На основе этого модель начинает предлагать свои варианты ответов или вариантов последовательности. Каждое предсказание сравнивается с правильным ответом. Если модель ошибается, ошибка анализируется с помощью специального алгоритма. У каждого варианта ответа — правильного или неправильного — есть миллионы весов, то есть параметров, послуживших факторами, определяющими выбор нейросетью именно этого ответа.
Цикл повторяется миллионы раз. Со временем модель становится точнее в своих прогнозах и учится находить глубокие паттерны языка. При этом она не сохраняет и не воспроизводит тексты дословно, но может частично запомнить или воспроизвести отдельные фрагменты, особенно если они часто встречались в обучающих данных.
Зачем бизнесу знать логику поведения нейросетей
Проблема черного ящика затрагивает несколько областей. Когда ИИ рекомендует, например, лечение, отказывает в кредите или предлагает бизнес-прогноз, важно понимать, почему он делает такой выбор. Прозрачность повышает уверенность в системе — особенно в высокорисковых сценариях.
Если ИИ принимает решение, которое приводит к убыткам или создает опасную ситуацию, бизнесу нужно понимать, на каком этапе произошел сбой. Без объяснения сложно понять, в чем была причина: ошибка в данных, непредвиденный сценарий или архитектурный сбой.
Один из громких инцидентов — убийство Элейн Херцберг беспилотным автомобилем Uber в 2018 году. Девушка переходила дорогу, когда ее сбил автомобиль. Расследование показало, что в разработке программного обеспечения не учли, что пешеходы могут переходить дорогу в неположенных местах. А виновной признали водителя-испытателя, так как она смотрела телевизор во время тестирования автомобиля.
Кроме того, нейросети могут воспроизводить и усиливать предвзятости, заложенные в обучающих данных. Если модель отказывает кандидату в работе или клиенту в кредите, нужно быть уверенным, что причина не в поле, расе или национальной принадлежности.
В начале 2024 года Google запустила генерацию изображений в чат-боте Gemini. А уже через несколько дней компанию раскритиковали за создание исторически неточных изображений, на которых вместо белых людей в основном были изображены цветные. Так произошло, потому что Google хотела исправить предубеждения в обучающих данных, но, кажется, не получилось.
Вам потом объяснят
Объяснимый искусственный интеллект (XAI) — это процесс и набор методов, которые позволяют объяснять, почему модель пришла к своему выводу и какие факторы повлияли на решение. На практике используются два типа методов — в зависимости от того, универсален подход или привязан к конкретной архитектуре.
Первый вариант — независимые методы (model-agnostic). Их можно применять к любой модели независимо от ее сложности. Например, LIME (Local Interpretable Model-Agnostic Explanations) строит локальную интерпретируемую модель, которая объясняет поведение исходной модели в рамках конкретного ответа. Если ИИ отказал в кредите, LIME покажет, какие параметры (например, доход или кредитная история) повлияли на это решение.
Другой вариант независимого метода — SHAP (Shapley Additive Explanations) — основывается на принципе из теории игр — векторе Шепли. Он рассчитывает и демонстрирует вклад признаков, показывая их влияние на решение модели. Этот метод помогает точно оценить, насколько каждый фактор приблизил или отдалил результат. Применим в задачах кредитного скоринга, диагностики, оценки рисков.
Помимо того, есть методы, встроенные в архитектуру. Некоторые модели проектируются так, чтобы они по умолчанию были более интерпретируемыми. Для этого используют специфические методы — например, метод под названием «деревья решений», классический алгоритм, в котором каждое решение объясняется как последовательность условий (например: если доход >X и возраст <Y, то результат — A). Такие модели не требуют дополнительных инструментов XAI, но могут уступать в точности более сложным моделям.
Еще один вариант — механизмы внимания (attention). Они используются в современных языковых моделях (например, GPT или BERT), позволяют увидеть, на какие части текста или данных модель обратила внимание при генерации ответа. Это помогает лучше понять, что «увидела» нейросеть в запросе пользователя.
