Алгоритм обмана

Почему ИИ выдает вымыслы за факты и скорее придумывает что-то, чем признается, что не может ответить

В 2024 году суд обязал Air Canada выплатить компенсацию пассажиру, которого ввел в заблуждение чат-бот авиакомпании. Искусственный интеллект сообщил неверные сведения о тарифах, в результате чего клиент приобрел билет по полной стоимости, хотя мог бы получить скидку. Это далеко не единичный случай: нейросети регулярно генерируют вымышленные или некорректные ответы — так называемые галлюцинации. Почему ИИ ошибается и можно ли с этим что-то сделать?

Фото: Getty Images

Фото: Getty Images

Ошибается уверенно

Галлюцинации нейросетей — явление, при котором искусственный интеллект выдает вымышленную или нелогичную информацию. Эти ошибки часто трудно заметить: текст звучит грамотно, убедительно и логично. Но за поверхностной стройностью может скрываться полная дезинформация. Так, в 2023 году американский адвокат воспользовался ChatGPT для поиска судебных прецедентов. Модель выдала список дел, подтвердив, что они реальны и доступны в юридических базах. Проверка показала: большая часть дел — вымышленные. Юристов оштрафовали на $5 тыс.

Галлюцинации ИИ делятся на три типа. Первый тип — фактические ошибки, то есть подмена реальных сведений ложными. Второй вариант галлюцинации — сфабрикованный контент или правдоподобно звучащие, но вымышленные истории. И третий — бессмысленные выводы, то есть грамматически верные, но логически абсурдные ответы.

В ноябре 2024 года команда исследователей Tow Center при Колумбийском университете провела исследование: поручила ChatGPT найти источник цитаты. Tow Center случайным образом выбрала 200 цитат из 20 изданий, среди которых были те, кто сотрудничает с OpenAI (например, The Associated Press), кто находится в судебных спорах с компанией (The New York Times, The Intercept), а также неаффилированные медиа.

Исследователи ожидали, что ChatGPT будет испытывать трудности с ответом на некоторые запросы, так как 40 из 200 цитат получили от изданий, которые заблокировали индексацию для роботов ChatGPT. Но чат-бот скорее придумывал что-то, чем признавался, что не может ответить. В 153 из 200 случаев (76,5%) нейросеть дала частично или полностью неверный ответ. И лишь в семи случаях ChatGPT использовал уточняющие слова и фразы, такие как «похоже», «возможно» или «может быть», или признавался: «Я не смог найти точную статью».

Прогресс с побочным эффектом

Парадоксально, но чем больше развивается ИИ, тем больше он галлюцинирует. OpenAI — компания-разработчик ChatGPT — измерила точность ответов моделей o1, o3 и o4-mini по двум критериям. SimpleQA — набор данных из 4 тыс. вопросов для поиска фактов и PersonQA — вопросы о публичных персонах. В обоих случаях новая o4-mini показала точность ответов ниже, а процент галлюцинаций выше, чем старые o3 и o1. OpenAI признала, что нужны дополнительные исследования, чтобы понять эти причины.

Стартап Vectara, основанный выходцами из Google, с конца 2023 года отслеживает частоту ошибок чат-ботов при резюмировании новостных статей. Изначально чат-боты выдавали от 3% до 27% ложной информации. За полтора года OpenAI и Google снизили этот показатель до 1–2%, а стартап Anthropic остался на уровне 4%. Однако с появлением систем рассуждений уровень ошибок вырос. Например, DeepSeek R1 галлюцинировала в 14,3% случаев, а o3 от OpenAI — в 6,8%.

Почему ИИ выдумывает

Ошибки в работе генеративных нейросетей, известные как галлюцинации, становятся все более заметной проблемой по мере развития технологий. Причины их появления кроются в ряде технических и методологических ограничений.

Во-первых, качество обучающих данных напрямую влияет на результат. Если в материалах, на которых обучалась модель, отсутствует точная или полная информация, искусственный интеллект начинает заполнять пробелы вымышленным контентом. При этом он не просто воспроизводит искажения, заложенные в датасет, но способен и усиливать их. Особенно это касается тем, где преобладают субъективные или спорные точки зрения.

Во-вторых, переобучение снижает гибкость модели. Если ИИ вместо обобщения запоминает конкретные формулировки, он хуже справляется с новыми запросами. Это приводит к шаблонным, неадаптивным или просто нерелевантным ответам, особенно в ситуациях, когда требуется аналитическое суждение или интерпретация контекста.

Существенную роль играют и архитектурные ограничения. Язык — не просто набор слов, а сложная система смыслов, связей и культурных кодов. Для точного воспроизведения таких связей модель должна обладать достаточной «емкостью», то есть числом параметров, позволяющим учитывать контекст, интонацию, жанр и даже интенцию высказывания. Чем меньше таких параметров, тем выше риск потери смысла.

Наконец, значение имеют и алгоритмы генерации текста. Например, метод beam search, широко применяемый для повышения связности и гладкости речи, склонен выбирать те выражения, которые чаще всего встречаются вместе. Это улучшает стиль, но не гарантирует достоверность: модель может уверенно выдавать ложную информацию просто потому, что она «звучит правильно».

Несмотря на то что полностью устранить галлюцинации пока невозможно, разработчики активно работают над снижением их частоты и значимости. Один из наиболее перспективных подходов — Retrieval-Augmented Generation (RAG), при котором модель получает доступ к внешним источникам знаний: базам данных, статьям или поисковым системам. Это помогает уточнять и проверять информацию, а не полагаться только на внутренние параметры.

Другой метод — Chain-of-Thought, так называемые цепочки рассуждений, или рассуждения вслух. Он побуждает модель не сразу выдавать ответ, а пошагово демонстрировать логику своего вывода. Такой подход снижает вероятность логических ошибок и делает ход рассуждений более прозрачным для пользователя.

Дополнительную устойчивость ИИ обеспечивает обучение с подкреплением на основе обратной связи от людей (RLHF). В этом случае разработчики оценивают ответы модели, корректируют ее поведение и тем самым помогают ей адаптироваться к предпочтениям пользователей, улучшая как точность, так и приемлемость генерируемых ответов.

Все это позволяет надеяться на более надежную работу ИИ в будущем. Однако, как признают сами разработчики OpenAI, полностью исключить галлюцинации пока нельзя. Поэтому генеративные модели остаются инструментами, требующими критического подхода и регулярной верификации, особенно в тех областях, где ошибки недопустимы.

Кристина Крецу, Александр Табернакулов