«Интеллект не равен объему знаний»
Почему ИИ становится меньше
Несколько лет индустрия искусственного интеллекта жила по правилу «больше — значит лучше». Чем больше параметров у модели, чем больше данных и вычислительных ресурсов вложено в ее обучение, тем выше ожидания от результата. Однако в 2026 году стали появляться примеры, которые ставят эту логику под сомнение. Компактные модели демонстрируют результаты, сопоставимые с гораздо более крупными системами. На этом фоне все чаще звучит вопрос о том, действительно ли будущее ИИ принадлежит самым большим моделям.
Руководитель группы «Передовой агентный интеллект» Института AIRI Андрей Галичин
Фото: Предоставлено пресс-службой Института AIRI
Руководитель группы «Передовой агентный интеллект» Института AIRI Андрей Галичин
Фото: Предоставлено пресс-службой Института AIRI
О том, почему малые модели становятся все более значимыми, где они уже превосходят своих крупных конкурентов и как это может изменить исследования в области искусственного интеллекта, «Ъ-Науке» рассказывает Андрей Галичин, руководитель группы «Передовой агентный интеллект» Института AIRI, работающей над семейством компактных языковых моделей, которые имеют сильные когнитивные способности, не обладая большим багажом вызубренной информации.
— В последнее время маленькие модели или системы из нескольких специализированных агентов обыгрывают гигантов. Что произошло?
— Это закономерность. Модели становятся лучше независимо от размера. Маленькие в том числе, и самое главное, что им есть куда расти, тогда как отдача от простого наращивания параметров постепенно снижается. Сейчас на первый план выходят агентные задачи, где важны не столько обширные знания, сколько когнитивные способности и умение действовать, работать с контекстом, быть устойчивым и точным. На этот процесс работает и экономика, ведь изначально дорогое решение со временем дешевеет и становится массовым. Ровно по этому пути уже идут многие новые компании. Один из ярких примеров — Liquid AI, технологический стартап, отделившийся от лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института, который специализируется исключительно на маленьких моделях и видит в них будущее ИИ.
— В чем разница между большой и маленькой языковой моделью, какая аналогия будет самой точной?
— Я бы сказал, что большая модель — это эрудит, который держит в голове целую библиотеку и хорошо рассуждает, в то время как маленькая модель может рассуждать примерно на том же уровне, но помнит гораздо меньше фактов. Думают они с помощью одинаковых механизмов, а вот объем заложенных внутрь знаний отличается кардинальным образом. При этом маленькая модель может такую разницу компенсировать дополнительными инструментами, например поиском в интернете или доступом к нужной документации, подтягивая контекст под конкретную задачу. Грубо говоря, это разница между человеком, изучившим всю энциклопедию, и таким же умным человеком со смартфоном под рукой, хотя смартфоном, конечно, может пользоваться и первый.
— Маленькая модель — это сколько параметров, где проходит граница?
— Точного рубежа, после которого мы однозначно относим модель к маленькой или большой, нет. Сейчас топовые большие модели доходят до триллиона параметров, значительная часть «большого опенсорса» живет в районе полутриллиона. На этом фоне даже модели на 30–50 млрд параметров уже можно считать маленькими. Однако есть и другой критерий. Что помещается локально на ноутбук или телефон? Что-то маленькое, конечно. Здесь уже речь идет о моделях, размер которых варьируется в пределах 10 млрд параметров для ноутбука и еще меньше для телефона.
— Что теряет модель, когда становится меньше, а что приобретает?
— Теряет в первую очередь широту знаний, некую универсальность. Модель знает меньше фактов, имен, деталей и специализированных тем. Иногда слабее становится работа с очень длинным или сложным контекстом, хотя в этом факте мы не до конца уверены, потому что эту проблему во многом можно решать механизмами внешней памяти и суммаризации. А вот способность рассуждать страдает заметно меньше — это ключевой момент.
Приобретает же скорость, цену и приватность. Маленькую модель быстрее и дешевле обучать, быстрее и дешевле запускать, а инференс может идти прямо на устройстве, то есть без облака, без задержек и без расходов на каждый запрос. Раз данные не уходят в облако, то появляется и приватность, вокруг которой не утихают споры, когда речь заходит о применении ИИ в медицине или в задачах, для решения которых компания или государство должны предоставить ИИ доступ к конфиденциальным данным. Это делает их привлекательными, потому что компактные модели — это не просто модели «чуть хуже больших, зато дешевле», а «достаточно умные и при этом радикально более дешевые, быстрые и безопасные для данных».
— Получается, что маленькие модели могут рассуждать так же хорошо, как и большие? Насколько вообще корректно разделять знания и мышление в искусственном интеллекте?
— Могут, и сейчас выходит много работ, которые это показывают. Способность рассуждать не требует гигантского размера. А вот разделять ли знания и мышление у моделей — вопрос сложный и, в общем-то, пока не решенный.
Интуитивно получается следующая цепочка. Фактологические, атомарные знания для самого процесса рассуждения не особо нужны, их можно подсмотреть в нужный момент, а вот умение выстроить алгоритм решения задачи, связать факты и прийти к выводу я как раз называл бы мышлением. Грубо говоря, знать наизусть и уметь думать — это разные вещи, второе вполне можно делать без первого.
— Есть ли сейчас задачи, где маленькие модели принципиально не смогут конкурировать с большими?
— Принципиально вряд ли. Фундаментального барьера, скорее всего, нет. Но есть задачи, где большие модели сохраняют преимущество в обозримом будущем. Без них сложно там, где нужны эрудиция и факты из многих областей сразу, а также заранее неясно, какие редкие данные понадобятся. В качестве простого примера можно привести импровизированный диалог с пользователем чат-бота о том, как прошел его день. Здесь размер пока решает, но граница качественного и некачественного ответа постепенно сдвигается.
— В биологии эволюция не всегда идет по пути увеличения размеров мозга. Можно ли сказать, что сейчас в ИИ происходит нечто похожее?
— Отчасти да. Сама базовая архитектура сети пока та же, но мы все активнее пересматриваем подходы к обучению, появляются новые архитектуры, которые могут оказаться более удачными в эволюционном смысле, то есть дают больше интеллекта на единицу размера.
— Перед нашей беседой вы сказали, что ваш проект по созданию когнитивного ядра OCC принципиально отличается от других тем, что модель отвечает на запросы только на основе предоставленных документов. Почему вы занялись именно этим?
— Уже все знают, что современные модели склонны галлюцинировать и по своей природе сильно опираются на то, что выучили при обучении. Обычно это плюс, но он играет с нами злую шутку, когда знания меняются со временем или когда документация говорит не то, что модель запомнила. ИИ норовит ответить «из головы», а не из того, что ему дали прочесть. Давайте попробую объяснить более подробно. Представьте, что вы врач. Вы уже давно наигрались в бытовые чат-боты, и поиск ответов на вопросы о потенциальной взаимосвязи симптомов и лечения на досуге вас не удивляет, как это было в 2021 году. Сейчас вы получили специализированный и интегрированный руководством в реальную медицинскую практику чат, который нужен, чтобы быстрее заполнять отчетность, скажем, подбирать ссылки на клинические рекомендации. Клинические рекомендации меняются. Вам нужно, чтобы «машинка» быстро доставала конкретную ссылку на конкретный документ, а вы не тратили дополнительное время на перепроверку. Вам не нужен джин в мониторе, который напишет впечатляюще красивый и лаконичный текст, используя очень много слов, но при этом сошлется на устаревшие данные. Чтобы убрать эту проблему, нужно строго следовать контексту, то есть отвечать только по предоставленным документам и честно отказываться формулировать вывод, если ответа в документах нет.
— Получается, что одна из главных проблем современных ИИ в том, что они слишком много помнят? Почему же тогда все говорят, что память ИИ — одно из самых важных направлений, от развития которого зависит будущее компьютерных наук? Не видите ли вы здесь парадокса?
— Мне кажется, что речь о двух разных видах памяти. В первом случае мы говорим про знания, «зашитые» в веса модели при обучении. Именно они вызывают галлюцинации, когда модель отвечает по устаревшим или неуместным фактам, а управлять этим напрямую нельзя. Внешняя, явная память отвечает за то, что ассистент удерживает в диалоге, что помнит о пользователе между сессиями, какие документы ему даны. Вот ее и называют важнейшей темой и развивают активно. Разница в том, что такую память можно прочитать, проверить, обновить, оптимизировать или удалить. Так что парадокса здесь нет, это две части одного процесса. Цель ведь не в том, чтобы ИИ помнил поменьше, а в том, чтобы мы сместились от неуправляемой зашитой памяти к управляемой внешней. Пресловутый черный ящик надо не перекрасить, а заменить материал стенок на прозрачный.
— Многие воспринимают интерес к малым моделям как способ сократить расходы на вычисления. Это действительно главная причина? Или речь идет о более фундаментальных изменениях в подходе к искусственному интеллекту?
— Экономия является приятным следствием. Фундаментальнее другое. Мы понимаем, что интеллект не равен объему знаний и что рассуждать модель может и в компактном размере, добирая информацию из внешнего мира. В таком случае меняется архитектура решений. Вместо одной всезнающей модели можно использовать компактную думающую часть плюс внешние знания и память, а сложные задачи разбивать между несколькими специализированными субагентами. Уже из этого подхода естественным образом вытекают и дешевизна, и скорость, и приватность, и возможность работать локально. Деньги здесь побочный выигрыш от более оптимального устройства системы. Не зря же говорят, что математика — штука очень элегантная. Удешевление при этом не просто сэкономит деньги. Оно поменяет природу применения ИИ. Когда каждый запрос может идти локально, становится возможным то, что при облачных ценах было немыслимо. Гонять модель миллионы раз в цикле, встраивать ее в каждое устройство, обрабатывать приватные данные, не отдавая их наружу. В таком свете экономия и стремление к новым архитектурам становятся одним целым.
— Что сегодня умеет большая модель, чего малые модели не смогут делать еще долго?
— Дольше всего продержится умение работать с открытой и размытой задачей, где заранее неизвестно, какие знания и шаги понадобятся. Если задачу можно четко определить, задать критерии выполнения, понять, что нужно подсмотреть снаружи, то маленькая модель с поиском и инструментами рано или поздно справится вне зависимости от специфики запроса. А вот когда нужно на лету связать редкие факты из совершенно разных областей и проявить своего рода вкус и здравый смысл — эрудиции маленькой модели не хватит. Это тяжелее всего вынести во внешнюю память, поэтому такой разрыв закроется в последнюю очередь.
— Есть ли сегодня задачи, где размер модели остается критически важным и никакая оптимизация пока не позволяет маленьким моделям догнать большие?
— Сложное программирование. Простой код компактные модели пишут уверенно, но, когда речь идет о большой кодовой базе, где нужно держать в голове связи между десятками файлов и выстраивать длинную цепочку рассуждений без единой ошибки, преимущество остается за большими. В целом это задачи, где требуется одновременно и широкий контекст, и глубокое многошаговое рассуждение. Сюда же можно отнести доказательство теорем и исследовательскую деятельность, где нужны глубина знаний и широкий кругозор. Только не путайте исследовательскую деятельность с анализом научных данных. Он как раз выиграет от появления маленьких моделей, как и другие агентные задачи и сценарии, где модель не выдает один ответ, а действует пошагово: вызывает инструменты, ходит в поиск, читает документы, проверяет результат и повторяет цикл много раз. Здесь компактные модели особенно к месту, потому что важна не эрудиция, а умение быстро и относительно дешево выполнять много шагов, а на один сложный запрос может приходиться несколько вызовов модели. Чем дешевле каждый вызов, тем ближе такие системы к практическому применению. Это персональные ассистенты на устройстве, системы работы с документами, как наш OCC-RAG, обработка приватных данных, которые нельзя отдавать в облако, обработка результатов экспериментов.
— Звучит так, будто маленькая модель, установленная прямо на смартфоне или ноутбуке, в ближайшие годы заменит большинству людей облачный ИИ.
— Точно сказать нельзя, так как область развивается стремительно. Хотя громких заголовков было очень много, еще в начале 2024 года серьезное программирование не давалось даже самым большим моделям. Реальные инженерные задачи они почти не решали, так, писали простой код на потеху публике. Но уже к 2025 году ИИ-агенты научились писать код целыми репозиториями, причем писать довольно неплохо, и многие программисты значительную часть работы делегируют помощникам. Когда так быстро меняются даже большие модели, давать предсказания о будущем маленьких очень сложно. Мне кажется более перспективной история про взаимодействие между ними. Локальной модели не нужно уметь делать все самой, и при необходимости она может обращаться к большим моделям в облаке, выступая в роли оркестратора: простое решаю на месте, сложное направляю на уровень выше. Такие эксперименты ведутся.
— Если малые модели становятся все лучше и лучше, то зачем продолжать строить безумно дорогие гигантские модели?
— Большие модели все еще объективно сильнее, а маленькие пока не набрали достаточно массы, чтобы их полноценно заменить. Кроме того, именно на гигантах ведется передовая работа там, где нужен максимум возможностей: доказательство математических теорем, сложные научные исследования, помощь в открытиях. Плюс есть и эффект тягача — большие модели прокладывают путь, а потом их умения дистиллируют и переносят в компактные модели. Сегодняшние гиганты во многом и есть то, что делает завтрашние маленькие модели хорошими. У человечества уже есть тончайшие и легчайшие ноутбуки, но суперкомпьютеры нам нужны, без них никуда. К слову, в списке известных и технологически продвинутых малых языковых моделей много решений от создателей больших моделей.
— Получается, что в будущем большие модели станут чем-то вроде научных лабораторий, а рядовой пользователь будет чаще работать с компактными системами?
— Вполне возможно. Большие модели активно играют роль учителя, который обучает и улучшает компактные модели. Массовому пользователю во многих повседневных сценариях хватит быстрых, дешевых и приватных локальных моделей, которые при необходимости обращаются к большим в облаке. Очень хочется уже оказаться в точке, когда рассказы про плюсы применения ИИ будут никому не нужны, потому что мы с вами будем воспринимать модели как что-то базовое, будничное и привычное.