Коммерсантъ FM

Сыграть человека

Как ИИ учится быть похожим на нас

С появлением ИИ-агентов — программ, которые не просто отвечают на вопросы пользователя, а выполняют многоступенчатые задачи в реальных сервисах,— индустрия столкнулась с проблемой, которую старыми методами не решить. Как обучить модель, если поведение человека в ходе решения запроса непредсказуемо?

Иван Ершов

Иван Ершов

Фото: из личного архива

Иван Ершов

Фото: из личного архива

Ответом стали reinforcement learning-среды: симуляции, в которых одни языковые модели учат другие вести себя по-человечески. Про один из главных фронтиров машинного обучения сейчас, над развитием которого одновременно работают все игроки индустрии — от OpenAI и Anthropic до «Яндекса» и Google, «Ъ-Науке» рассказывает Иван Ершов, руководитель разработки ИИ-агентов в «Алисе AI».

— Что такое reinforcement learning?

— Reinforcement learning, или обучение с подкреплением,— это метод, при котором нейросетевая модель обучается буквально методом проб и ошибок: совершает действия, получает сигналы о том, хорошо или плохо что-то сработало, и постепенно «нащупывает» стратегию, которая приводит к нужному результату. Как ребенок, осваивающий велосипед: никто не объясняет ему теоретическую формулу равновесия. Поначалу он падает, но после ряда попыток у него наконец получается ехать ровно по прямой.

Показательно, что венчурный фонд Andreessen Horowitz, один из крупнейших инвесторов в инфраструктуру под ИИ, назвал создание RL-сред ключевым направлением ближайших лет.

— С чем связана такая актуальность RL?

— Сегодня в индустрии решается принципиально новая задача: научить ИИ-агентов выполнять задачи, связанные с действиями в системах за пределами чатов — сервисах бронирования, средах разработки, магазинах и др. И эти задачи будет ставить сложно предсказуемый в поведении и не всегда понятный машине человек.

Прежние методы обучения, которые хорошо работали для генеративных нейросетей — например, когда модели показывают множество эталонных ответов и учат его воспроизводить,— для этого не подходят. Именно поэтому вся индустрия — OpenAI, Anthropic, «Яндекс», Google, стартапы — обратилась к RL.

Начиная с 2024 года все ведущие лаборатории интегрировали RL в обучение своих агентных моделей.

— В чем заключается суть этого метода обучения?

— При RL-подходе нейросетевая модель учится через получение внешних сигналов — «награды» или «штрафа». Долгое время этот метод применялся для разработки игр. Например, в 2016-м программа от Google AlphaGo победила чемпиона мира по игре го. Это казалось невероятным, ведь в го существует 10 в степени 170 возможных позиций, больше, чем атомов в наблюдаемой Вселенной.

Именно способность быстро работать с большим количеством вероятных вариантов развития событий и сделала RL идеальным методом для обучения агентов.

В диалоге с пользователем модель агента должна понимать, как ей действовать при множестве возможных сценариев, чтобы довести задачу до результата. Возьмем запись в парикмахерскую: в среднем это цепочка из десяти шагов. И хотя со стороны кажется, что их немного, вариантов развития событий внутри такой цепочки огромное множество. Поэтому для обучения модели создаются RL-среды, где она может потренироваться.

Например OpenAI обучала своего агента Operator через RL в тысячах таких виртуальных сред. Вместо того чтобы программировать конкретные паттерны поведения, модель нащупывала оптимальные стратегии через опыт взаимодействия модели с RL-средой.

— Что собой представляет RL-среда?

— RL-среда — своего рода авиасимулятор для модели, тренажер. Она создает условия, в которых модель может безопасно и быстро отрабатывать поведение, которое потом будет использоваться в реальном продукте.

Архитектура среды, к которой мы пришли,— это система из трех языковых моделей, которые, по сути, «играют» друг с другом.

Первая — агент, которого мы обучаем. Он пытается решить задачу пользователя. Вторая — «железный пользователь»: языковая модель, которая симулирует поведение живого человека. Она говорит: «Я хочу записаться на прием во вторник, у меня такие-то предпочтения». Третья — модель-жюри. Она смотрит на весь диалог и оценивает, насколько агент справился с задачей: что было хорошо, что нет и почему.

Внутри такой среды модель может пробовать разные стратегии и корректировать поведение. Например, если модель не уточнила важную деталь и дала неверный результат — это можно зафиксировать как негативный исход, и больше модель так поступать не будет.

В результате получаются траектории — набор действий (взаимодействий), которые совершает агент в течение одной попытки решить задачу.

— Как нейросетевая модель понимает, какая траектория будет лучше для выполнения задачи пользователя?

— Здесь начинается исследовательская сложность. Ведь есть множество решений, которые могут привести к нужному для человека результату. Поэтому индустрия активно использует методы ранжирования траекторий: мы не говорим модели «это правильно», мы говорим «это лучше, чем другое». Так модель постепенно понимает, какое поведение приводит к результатам, которые оцениваются как корректные.

И один из ключевых вызовов в этой области сейчас — credit assignment: как понять, за выбор какого действия в траектории модель нужно «наградить» или «поругать».

— За какие действия вы «награждаете» агентов и почему именно за них?

— Ключевая для нас метрика — насколько агент на базе «Алисы AI» освобождает пользователя от лишних действий и решений. Недостаточно просто довести задачу до результата — важно, чтобы путь к нему был короче и проще, чем если бы человек действовал сам.

Хороший агент не ждет, пока пользователь сформулирует каждую деталь: он предугадывает намерение, сам проверяет доступные варианты и предлагает уже отфильтрованный выбор. В идеале — минимум уточнений, минимум ручных действий, максимум попаданий в ожидание. Именно это мы и стараемся измерять.

— А что происходит, когда модель нужно «поругать»? Как это выглядит с точки зрения системы?

— Плохим сигналом считается все, что не привело агента к конечной цели: лишний вопрос, превышение времени — система фиксирует каждое. И здесь много интересного лежит в области атрибуции ошибок. Когда есть траектория из 10–15 шагов, сложно понять, какой именно шаг повлиял на успех или провал. Ошибка могла произойти в начале, но проявиться только в конце.

Например, агент должен забронировать столик в ресторане: сначала делает поисковый запрос, потом выбирает из результатов, потом бронирует столик. Но на первом шаге пользователь некорректно сформулировал запрос — и в итоге агент нашел ресторан с таким названием, но в другом городе. Хотя все последующие действия были выполнены безупречно, пользователь недоволен, но «наказывать» модель нужно только за первый шаг, а не за все последующие.

Поэтому оценка правильности выполнения задачи должна быть пошаговой и гибкой.

Забавный факт: исследователи Anthropic обнаружили явление, которое назвали reward hacking — взлом системы награждения самим ИИ-агентом. Программа может найти лазейку и получить максимальный сигнал вознаграждения, принудительно завершив траекторию. Формально это не нарушает правила, но на практике это не решило бы задачу реального пользователя. Не потому что система «хитрит». Просто она, как ребенок, не понимает, что формальный результат и нужный результат — разные вещи. Именно поэтому проектирование системы наград — отдельная исследовательская задача.

Еще одно инженерное решение — построение небольших RL-сред под развитие конкретных навыков. Они не обучают модель решать задачи пользователя в продакшене, реальные запросы, но помогают выработать конкретное поведение на том или ином шаге.

— Например?

— У нас была проблема: модель любила додумывать от себя недостающие параметры, вместо того чтобы уточнить у пользователя. Мы сделали небольшую «игрушечную» среду: ставили агенту запрос с заведомо пропущенными данными и проверяли — уточнит ли он информацию или начнет фантазировать. Если не уточнял — система получала негативный сигнал.

Другой случай — изменение формата предоставления свободных слотов для записи. Модель выдавала их как список: 10:00, 11:00, 12:00, 13:00, как робот. Мы хотели, чтобы она говорила по-человечески: «Есть время с десяти до двух», и создали отдельную среду для обучения именно под это. Целевые точечные проблемы удобнее решать так, чем пытаться поменять все обучение целиком.

— К вопросу про человеческое поведение: расскажите подробнее про симуляцию реальных пользователей. Как это устроено?

— Пользователь в RL — самая трудоемкая часть всей системы. Первые симуляторы работали на статических правилах: программа генерировала запросы по словарю и вычисляла вероятность реакции по заданным параметрам. Это оказалось слишком грубо: такой «пользователь» всегда логичен, последователен и терпелив. Реальные люди совсем другие: они забывают, путаются, меняют запрос по ходу решения задачи, раздражаются.

Поэтому в индустрии перешли к LLM-симулякрам — моделям, которые обучаются на транскриптах реальных интервью с людьми и воспроизводят их поведенческие паттерны. Добавляется случайность, внутренние состояния, разные типы характеров: один пользователь нетерпелив и хочет ответ немедленно, другой склонен к долгим уточнениям. Стэнфордское исследование 2024 года показало, что такие симулякры воспроизводят ответы реальных людей с точностью 85% — сопоставимо с тем, как сами люди воспроизводили свои ответы спустя две недели.

— Обучение в таких RL-средах уже приносит плоды в реальных продуктах?

— Да, как в международной практике, так и в локальной. У нас много агентов в работе. Например, агент «Найти дешевле» может по ссылке на товар от пользователя провести самостоятельный анализ рыночных предложений, проверить наличие с учетом региона и выдать подборку выгодных вариантов. Режим «Исследовать» берет на себя задачи, где нужны сложные расчеты и глубокое погружение в тему: например, если пользователь хочет накопить на автомобиль, агент на базе «Алисы AI» поможет составить для него подробный план с учетом дохода, региона, актуальных цен и процентов по вкладам.

Сценарий бронирования — удобный пример, потому что там очевидна последовательность шагов. Но это только один из сценариев. Любую задачу, где агент должен вести диалог, уточнять контекст и адаптироваться к ответам пользователя, можно обучать через RL-среды. Это общая инфраструктура для нового класса продуктов.

— Если смотреть шире: повлияет ли как-либо этот сдвиг в обучении агентов на будущее развития ИИ в целом?

— Да, потому что за ИИ-агентами — ближайшее будущее. Раньше мы строили системы, которые «знают», как правильно, теперь индустрия фокусируется на развитии систем, которые действуют. И это сложная задача, потому что она требует понимания поведенческих паттернов.

Развивая это направление, мы получаем не просто более «умные» модели, а принципиально новый класс интерфейсов. ИИ станет не отдельным инструментом, а средой, в которой происходят действия на стыке реального и виртуального миров.

И в этом смысле моделирование пользователя — это не просто техническая задача. Это попытка формализовать то, как люди думают, принимают решения и взаимодействуют. А значит, это один из самых глубоких вызовов во всей области, который мы решаем уже сейчас.

Мария Грибова