Искусственный интеллект галлюцинирует

Интервью с Алексеем Зайцевым о методах распознавания и борьбы с ошибками ИИ

Доцент Сколковского института науки и технологий Алексей Зайцев, руководитель совместной лаборатории «Сколтех—Сбербанк» Центра ИИ Сколтеха и директор летней школы машинного обучения SMILES-2025 в Харбине, ответил на вопросы «Ъ-Науки» о галлюцинациях больших языковых моделей, которые порой с полной уверенностью сообщают пользователю неправду.

Алексей Зайцев

Алексей Зайцев

Фото: Надежда Прохорова

Алексей Зайцев

Фото: Надежда Прохорова

Если полностью избавить искусственный интеллект от «фантазий» невозможно, можно ли хотя бы заранее понять, когда он начнет говорить не то? Ответ на этот вопрос предлагает новый подход в области интерпретируемого ИИ, в разработке которого участвует Алексей Зайцев. С ним побеседовал «Ъ-Наука». Метод не требует внешних баз знаний и не сверяет ответы с фактами: он смотрит внутрь модели и анализирует, насколько похож ее ответ на заданный вопрос с точки зрения ее внутренней логики.

— Начнем с основ. Галлюцинация — это когда модель выдает ложный факт?

— Да. Такое определение будет наиболее точным. Мы задаем ей вопрос, а отвечает она неверно, путает факты или не может дойти до правильного решения математической задачи, ссылаясь на несуществующую теорему.

— Что заставляет модели входить в режим фантазирования? Где можно подстелить соломки, а с чем нужно смириться?

— Во-первых, нужно понимать, что все модели ИИ иногда ошибаются, как и человек. Причины ошибки могут быть разными. Две основные — недостаток знаний о конкретном явлении и неспособность рассуждать достаточно хорошо, когда заданный модели вопрос оказался слишком сложным или неясным.

Если знаний недостаточно, значит, нужно эти знания в модель заложить. Память модели очень велика, но ограниченна. Кроме того, ее обучение идет долго, стоит дорого и происходит не каждый день — и нужно постоянно обновлять те знания, которые в ней есть. Например, она без доступа к интернету не сможет дать прогноз погоды на завтра. Ученые работают над устранением этих проблем, закладывая в модель все новые знания и разрабатывая методы привлечения дополнительной информации. Сейчас, если модель не уверена в своем ответе, она может поискать его в интернете, прочитать релевантные научные статьи.

Со сложными задачами модели тоже учатся работать лучше. Они выстраивают длинные цепочки рассуждений, пытаются их повторять в разных вариантах, чтобы дойти до верного ответа. Такие размышления помогают решать сложные задачи, на которые и человеку требуется значительное время. Но некоторые вершины пока им не могут покориться. Независимое сравнение ведущих языковых моделей на задачах последней Международной олимпиады по математике показало, что только одна из них может претендовать на бронзовую медаль.

— Слово «галлюцинация» не делает модель слишком человекоподобной?

— Мне тоже не нравится этот термин. Тут я не одинок. Известный лингвист Эмили Бендер из Вашингтонского университета как раз критикует этот термин за антропоморфизм: галлюцинировать может только тот, кто наделен способностью воспринимать окружающий мир, и делает он это часто даже без заданных ему вопросов, сам по себе. Более правильно говорить, что модель отвечает на вопрос неправильно, нарушается фактологичность ответа. Но слово «галлюцинация», конечно, звучит красивее и вошло как термин в лексикон ученых, где теперь и останется.

— Раньше считалось, что по мере эволюционирования моделей число ошибок будет падать. Так ли это, насколько реже модели стали ошибаться?

— Мы изучали, как люди и языковые модели справляются с вопросами разной сложности, и оказалось, что часто они «спотыкаются» об одни и те же задачи. То есть вопросы, трудные для человека, нередко оказываются такими же трудными и для модели. Это важное наблюдение: оно говорит о том, что модели не просто выдают ответы наугад, а в каком-то смысле начинают «думать» похоже на нас. При этом сами модели стремительно развиваются: запоминают больше, формируют все более сложные суждения. И предсказать, где окажется их потолок через год или пять лет, на самом деле никто сейчас не может.

— Если полностью избавиться от галлюцинаций нельзя, можно ли заранее понять, что модель планирует соврать?

— Как ни странно, но модели часто осознают, что с их ответом что-то не так. Если посмотреть внутрь модели, как она думает, насколько считает верным ответ на поставленный вопрос, то можно это тоже понять. Для того чтобы это сделать, мы в рамках проекта со «Сбером» разработали подход, который назвали TOHA (Topology-Based Hallucination Detector) и про который уже можно прочитать научную статью или послушать в открытом доступе: мы рассказывали про него на нашей летней школе SMILES-2025 в Харбине.

Вместо того чтобы проверять ответы после генерации, TOHA наблюдает за процессом генерации текста изнутри самой модели, используя результаты из раздела математики, который называется топологией. Она позволяет понять, насколько с точки зрения модели ее ответ похож на вопрос. Если он повторяет вопрос, слишком близок к нему, значит, модель потрудилась недостаточно и велика вероятность галлюцинации. Непохожесть до определенного предела свидетельствует о том, что ответ получился хороший. Другим важным выводом стало то, что для диагностики галлюцинаций совсем не обязательно анализировать всю модель целиком. Современные модели состоят из большого числа частей, которые называют головами, потому что они способны обработать информацию, которая приходит им на вход. В современных моделях больше тысячи таких голов. Разные головы отвечают за разную экспертизу. В нашей работе оказалось, что можно выделить всего шесть и с высокой точностью распознать моменты, когда модель начинает фантазировать.

Алексей Зайцев

Алексей Зайцев

Фото: Лу Шань

Алексей Зайцев

Фото: Лу Шань

— То есть это уже не фильтр, а настоящая диагностика?

— Совершенно верно. Мы стремимся создать ситуацию, когда модель сама признается в неуверенности: «Здесь я не уверена». В таком случае она поищет дополнительную информацию в своей базе знаний или интернете или подключит к ответу человека. Такой подход особенно полезен в медицине, финансах, юриспруденции, где цена ошибки очень велика.

— В каких сферах галлюцинации критичнее всего, а где ими можно пренебречь?

— Если чат-бот советует сериал, не страшно, если он перепутает год премьеры или нечто столь же не критичное в целом. А вот в хирургии робот-ассистент не имеет права «фантазировать» ни на миллиметр. TOHA как раз ценен тем, что позволяет количественно задать границу допустимого риска.

— Так называемые reasoning-модели, где цепочка размышлений выводится наружу, чаще сбиваются?

— Иногда такое возможно, так как цепочек рассуждений больше и они намеренно сделаны разнообразными, чтобы модель могла пофантазировать. Однако именно механизм рассуждений часто дает самые точные и полезные финальные ответы, поскольку они раскрывают всю цепочку размышлений. Это как решение математической задачи с подробным объяснением каждого действия: да, есть шанс допустить ошибку в промежуточных вычислениях, зато конечный ответ и логика становятся абсолютно прозрачными и проверяемыми. Но с рассуждениями есть другая проблема: подумав достаточно долго, модель становится чрезмерно уверенной в своих ответах. Такая самоуверенность ее не красит.

— Как считают процент галлюцинаций и оценивают, какая модель меньше галлюцинирует? Очевидные фейки легко поймать, но есть же серая зона.

— Действительно, тут все непросто. В основном используют два метода. В первом случае можно использовать набор вопросов — пусть и сложных, но с готовыми вариантами ответа. Если модель дала неправильный ответ, есть галлюцинация! То есть мы считаем долю правильных ответов на заданном корпусе вопросов — это и есть оценка качества модели. Но такая оценка ограниченна: мы же хотим, чтобы модель писала длинные тексты, давала сложные ответы. Эти умения тоже нужно проверять.

Поэтому используют и ручную разметку экспертами. Это дольше и дороже, но именно так можно «поймать» самые тонкие и неоднозначные моменты, в отношении которых автоматический подход зачастую бесполезен. Например, эксперт легко поймет, что модель назвала верную цифру, но дала неверное объяснение или контекст.

Для работающих моделей мы можем собирать обратную связь от пользователей — выдать два ответа и спросить, какой лучше. Такая оценка тоже будет полезной, но отражать более широкий набор критериев помимо правильности ответа: форму, наличие эмодзи в конце или упоминание любимой музыкальной группы.

На практике, разумеется, подходы комбинируются. Автоматические бенчмарки показывают общую динамику, ручная разметка и пользовательская обратная связь показывают, насколько модель соответствует сложным ожиданиям в реальной жизни.

— Но все равно большая языковая модель — черный ящик: мы не можем понять, почему модель приняла то или иное решение. Насколько это мешает борьбе с галлюцинациями?

— Мешает сильно. Мы не можем указать конкретный нейрон или вес в сети, отвечающий за определенный факт — например, за правильную столицу страны или отчество ученого. С другой стороны, искусственный мозг гораздо проще «открыть», чем наш, человеческий. Мы можем, например, понять, какие части модели возбуждаются, когда она планирует сказать какую-нибудь чушь. Такое изучение — отдельная и интересная часть нашей науки. Мы работаем с очень сложными и непонятными объектами с миллиардами параметров, но эти объекты все же проще изучать, а значит, мы постоянно понимаем, как их делать лучше и какие механизмы внутри модели за что отвечают. Теперь это отдельная область науки, очень бурно развивающаяся, в которой еще возможны большие открытия.

Команда лаборатории прикладных исследований «Сколтех—Сбербанк» (LARSS)

Команда лаборатории прикладных исследований «Сколтех—Сбербанк» (LARSS)

Фото: Тимур Сабиров, Сколтех

Команда лаборатории прикладных исследований «Сколтех—Сбербанк» (LARSS)

Фото: Тимур Сабиров, Сколтех

— А как можно стать ученым в области искусственного интеллекта, что для этого нужно?

— Путь тут стандартный — бакалавриат, магистратура, аспирантура. Для обмена знаниями мы проводим летние школы, ездим на конференции. Сейчас я нахожусь в Харбине, на летней школе SMILES. Вместе со студентами, прошедшими серьезный отбор, мы думаем над тем, как снизить число галлюцинаций и детектировать их, как создать более надежный и полезный ИИ, заглянуть внутрь большой языковой модели.

— А какой совет вы можете дать пользователям больших языковых моделей? Могут ли они повлиять на фактологичность ответов? Разве не работает принцип «какой вопрос, такой и ответ»?

— Нельзя требовать от врача, который торопится расшифровать КТ-снимок, идеально формулировать запросы к модели. Это не его работа. Система должна подстраховывать пользователя и предупреждать: «Я здесь не уверена, лучше перепроверьте этот результат». Но модели пока не обладают телепатическими способностями, и поэтому, как и человеку, им нужно подробно рассказать, что вы от них ожидаете.

— А что дальше? Возможно ли совсем избавиться от галлюцинаций?

— Полностью, к сожалению, нет. Это как в инженерии: абсолютный ноль отказов технически недостижим. Но свести число критических ошибок к минимуму, чтобы модель можно было использовать в разных областях человеческого знания, вполне реально. Именно в этом направлении мы движемся.

— И последний вопрос: зачем все это? Что меняется, когда ИИ сам осознает свою неуверенность?

— Меняется парадигма. Мы переходим от «умной печатной машинки» к повзрослевшей сущности, которая умеет признавать ошибку, разделять ответственность, говорить: «Не знаю» или «Проверь меня». Для науки это шанс исследовать границы модели. Для бизнеса — возможность строить сервисы, где пользователь доверяет системе не вслепую, а потому что видит честный индикатор ошибки. А для общества — это шаг к культуре ответственного ИИ, где умение понимать границы своего знания ценится выше чрезмерной самоуверенности.

Надежда Шварцкопф