Память на аутсорсе
Как искусственный интеллект учится жить настоящим
Еще несколько лет назад могло показаться, что достаточно обучить генеративную языковую модель на большом массиве данных и она сможет безупречно отвечать на любые вопросы. В гонке за качеством генерации индустрия увеличивала обучающие датасеты, масштабировала модели.
Фото: Анатолий Жданов, Коммерсантъ
Фото: Анатолий Жданов, Коммерсантъ
Но долгое время сохранялось ограничение: после того как обучение заканчивалось, знания фиксировались и со временем утрачивали актуальность, а обновить эти знания без потерь было практически невозможно. О том, как индустрия нашла выход в «живом» знании и как ИИ хранит часть своего интеллекта вовне, рассказывают эксперты.
Фундаментальные ограничения
Природу ограничения памяти генеративного ИИ объяснял ранее Юрий Куратов, руководитель группы «Модели с памятью» в Институте AIRI. Как отмечает эксперт, нейросеть стала обладать энциклопедическими знаниями на уровне кандидатов наук, но ограничения, связанные с памятью архитектуры трансформера, на которой работает современный генеративный ИИ, сохранились. У памяти трансформера есть пределы: после того как обучение заканчивается, знания модели фиксируются в так называемых весах, параметрической памяти, и более не обновляются. При этом дообучение на новых данных ведет к потере части предыдущих. Хотя проблему, которую называют термином «катастрофическое забывание», описали еще в 1989 году, она сохраняет актуальность и становится более значимой с появлением современных ИИ-агентов, в случае которых отсутствие актуального знания может привести к серьезным ошибкам.
Исследователи отмечают: по мере движения к агентному миру, где языковые модели самостоятельно выполняют специализированные задачи, становится критически важным, чтобы они могли адаптироваться к новому, не забывая ранее усвоенного.
При этом существует отдельная и связанная проблема — галлюцинации. Как отмечают эксперты, галлюцинации относятся к структурным свойствам больших языковых моделей: «Модель оптимизируется на правдоподобный текст, а не на истину, поэтому уверенно ошибаться они умеют хорошо»,— объясняет Елизавета Жемчужина, руководитель команды разработки ИИ Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.
Кроме того, поскольку память модели заключена в весах, нейросеть не может «сопоставить» факты и ответить пользователю, что она не знает ответ на его вопрос. Зарубежные исследователи доказывают проблему математически: ошибки заложены в каждом этапе работы языковой модели и не могут быть устранены ни улучшением архитектуры, ни расширением датасета.
Одно из решений найдено в индустрии
Индустрия уже предложила рынку способ обойти ограничения: вынести память модели за пределы архитектуры, предоставив ей доступ к «живому» знанию в интернете с помощью поиска. За последние годы крупнейшие мировые технологические компании-разработчики в области ИИ сосредоточились на работе с поисковым индексом — базой данных, которую строит поисковая система путем агрегации данных из интернета специальной программой — краулером. Поиск в интернете относится к «внешней памяти, к которой модель может обратиться, когда собственных знаний не хватает», отмечал Куратов.
Такой механизм работы эксперты называют Retrieval — поиском, совмещенным с подмешиванием в контекст (контекст — информация, которой оперирует модель во время ответа пользователю, например текст его запроса). «Retrieval — это наиболее практичное решение, потому что оно дешевое и не требует менять веса модели»,— объясняет Жемчужина. Впрочем, она оговаривается: это компромисс. Модель не учится — она читает найденное, и качество ответа полностью зависит от качества поиска и ранжирования. Даже при хорошем извлечении данных модель может интерпретировать источник неправильно или додумать лишнее. «Альтернативы активно исследуются — долговременная агентная память, обучение на лету, гибриды с базами знаний и графами. В долгосрочной перспективе ожидается не замена Retrieval, а его интеграция с более осмысленной памятью»,— добавляет эксперт.
Академическое сообщество также ищет пути решения ограничений, связанных с памятью. По словам Жемчужиной, в российском академическом сообществе ведутся исследования в этой области. «Особенно в крупных университетах (в том числе в НИУ ВШЭ) и индустриальных лабораториях»,— отмечает эксперт. При этом в индустрии наблюдается дисбаланс. «Есть перекос в сторону интеграции LLM в продукты, где проблемы галлюцинаций и памяти решаются инженерно, а не фундаментально. Фундаментальных исследований меньше, но они есть и постепенно растут»,— говорит она.
Разработчики в сфере ИИ пришли к решению проблемы посредством поисковых технологий почти одновременно. К октябрю 2024 года один из популярных ИИ-ассистентов внедрил веб-поиск, который был призван обеспечивать модели доступ к актуальным событиям и информации, повышая точность ответов. Один из основателей сервиса, специализирующегося на совмещении поиска с генерацией ответов, отмечал, что его компания выстроила конкурентное преимущество на этой концепции. По его словам, это произошло после того, как команда столкнулась с ошибками при работе с существовавшими тогда чат-ботами. Тогда специалисты пришли к выводу, что чат-боты могут быть точными, только если заставить их говорить исключительно то, что они могут найти в интернете, основываясь на нескольких источниках. Он также подчеркивал, что модели нужны возможность браузинга, поиск, индексирование, краулинг, оркестрация, память.
На сегодня у компаний сложилось несколько подходов к организации внешней памяти для модели через поиск, в их числе — использование готовой поисковой инфраструктуры и самостоятельное создание индекса с нуля. Среди международных игроков собственным поиском располагают крупнейшие поисковые системы (включая одну из самых популярных в мире, ее конкурента с собственным индексом, а также ведущий китайский поисковик). Например, один из лидеров рынка реализовал интеграцию индекса с моделью через механизм привязки к поисковой выдаче. Модель сама определяет, когда ей нужна актуальная информация, формирует поисковые запросы к живому индексу, извлекает релевантные фрагменты и встраивает их в контекст до того, как сформировать ответ. Что касается российского рынка, то к компаниям с собственным поиском можно отнести «Яндекс». «Среди компаний в России, у которых на текущий момент есть собственный поиск, “Яндекс” выглядит одним из наиболее сильных игроков благодаря сочетанию развитого поиска, хорошего понимания русскоязычной среды и возможности встроить это преимущество в ИИ-сервисы»,— отмечает Павел Голосов, директор Института общественных наук РАНХиГС.
В то же время компании, которые в большей степени фокусировались на развитии моделей, сейчас обращаются к поиску других корпораций или строят собственную инфраструктуру. Так, один из известных разработчиков языковых моделей годами использовал поисковый индекс крупной зарубежной IT-корпорации — он стал поисковым движком по умолчанию для его чат-бота еще в 2023 году. При этом сейчас компания работает над собственным поисковым краулером.
«Собственный поиск сегодня становится для разработчиков ИИ-ассистентов серьезным структурным преимуществом,— говорит Голосов.— Если у компании есть зрелая поисковая инфраструктура, она может быстрее и точнее давать пользователю актуальный ответ без постоянного дообучения модели». По словам эксперта, построить такое преимущество с нуля сложно, потому что поиск — это не только технологии индексации, но и многолетняя работа с качеством данных, ранжированием и очисткой выдачи.
Специфика подхода
Использование поиска также требует своей архитектурной специфики. Классический поиск возвращает пользователю список ссылок для самостоятельного изучения. Но когда языковой модели требуется актуальная информация, например о вчерашних событиях, она не перебирает весь интернет, как этот делает человек, а обращается к специализированной поисковой инфраструктуре, которая заранее отобрала и проиндексировала для нее подходящую информацию.
Кроме того, это актуально для компаний с собственными пользовательскими поисковыми сервисами, таких как «Яндекс», в которых поменялась логика пользовательского опыта: например, сейчас над традиционным списком ссылок пользователь зачастую сначала видит сгенерированный ИИ ответ со списком источников, на которые опиралась модель. Как объясняла на конференции «День поиска—2026» Екатерина Серажим, технический директор «Яндекс Поиска», прямая выдача множества документов требует больших вычислительных ресурсов, поэтому языковой модели нужна собственная система, которая предварительно анализирует документы и отбирает только релевантные фрагменты.
Будущее за гибридными решениями
Поиск стал практическим ответом на проблему памяти, к которому индустрия смогла прийти раньше всего и который сегодня принят большинством крупных игроков. При этом индустрия сталкивается с одним общим ограничением: качество ответа модели напрямую зависит от качества источников в интернете, а значит и от того, насколько хорошо поисковый индекс их отбирает и ранжирует. Эксперты сходятся во мнении, что в будущем одной технологии будет недостаточно — решение находится на стыке технологий. При этом поиск останется одним из его компонентов. Как отмечал Куратов, идеальная архитектура памяти должна быть гибридной — «набором разных подсистем под разные задачи, включая механизмы поиска и обращения к внешним источникам». Елизавета Жемчужина, в свою очередь, подчеркивает, что на практике поиск или его аналоги становятся архитектурной нормой. Будущее за агентами, которые адаптивно управляют собственной памятью.