Слепой ведет слепых

Низкое качество данных становится препятствием для внедрения ИИ

Все российские системообразующие банки используют в работе искусственный интеллект. Банки ускоряют внедрение искусственного интеллекта (ИИ), рассчитывая на автоматизацию процессов, более точные риск-модели и персонализацию клиентских сервисов. Но по мере роста числа ИИ-проектов становится очевидно: большинство таких инициатив упирается в один и тот же барьер — низкое качество данных. До системного решения этой задачи инвестиции в ИИ не будут давать сопоставимый результат.

Фото: Игорь Елисеев, Коммерсантъ

Фото: Игорь Елисеев, Коммерсантъ

Нейросети ограниченной точности

Центральный банк отмечает, что банки используют ИИ в большинстве ключевых процессов: от кредитного скоринга и оценки рисков до антифрода, персонализации продуктов, анализа трансакций и обслуживания клиентов. Из 12 системообразующих банков 11 используют ИИ в скоринге, 9 — в профилировании клиентов и персонализации, а модели глубокого обучения и генеративный ИИ уже применяются для автоматической подготовки документов, обработки изображений, классификации обращений и маршрутизации запросов. Для розничного кредитования степень автономности алгоритмов, по оценке банков, «приближается к 100%»: выдача кредитов в массовых сегментах проходит полностью автоматически, а участие человека ограничивается настройкой, валидацией и запуском моделей.

Инвестиции крупнейших игроков подтверждают масштаб тренда. Сбербанк планирует увеличить вложения в ИИ до 350 млрд руб. к 2026 году, ожидая от этого 1,4 трлн руб. дохода за трехлетний период. ВТБ, по заявлению главы ВТБ Андрея Костина, уже сэкономил 15 млрд руб. за счет алгоритмов и рассчитывает увеличить эффект до 50 млрд руб. в ближайшие два года; Т-Банк прогнозирует прямой экономический результат в «десятках миллиардов» рублей в текущем году.

При этом проникновение ИИ в финансовый сектор остается неоднородным. Согласно опросу ЦБ, 24% банков активно используют ИИ, еще у 19% банков ИИ в стадии пилотного проекта, а самые «автоматизированные» сценарии — когда решения принимаются без участия человека — сегодня есть во всех системно значимых банках и страховых компаниях.

Искусственный интеллект применяется и в миграционных проектах. В компании Arenadata отмечают, что модели помогают автоматизировать подготовку преобразований данных и упрощать проверку структур перед переносом, снижая объем рутинных операций. Такие подходы позволяют сократить сроки миграций, но требуют базовой согласованности хранилищ и прозрачной логики формирования данных.

ИИ уже используется в банках для автоматизации отдельных этапов работы с информацией. Модели помогают выявлять аномалии, подсказывать возможные дубли и обращать внимание на некорректные поля — то, что раньше требовало большого количества ручных операций. Директор по отраслевым решениям в коммерческих банках К2Тех Василий Куць считает, что нейросети могут «частично упорядочивать данные и подсказывать вероятность ошибок», но остаются вспомогательным инструментом, а не основой критичных процессов.

Наиболее заметный эффект ИИ дает при выполнении задач каталогизации: алгоритмы помогают сопоставлять атрибуты, определять вероятные типы данных и выявлять связи между объектами. Это сокращает время инвентаризации и упрощает выстраивание процессов Data Governance (система правил и процессов управления качеством и жизненным циклом данных). Но и здесь технологии работают только при наличии минимального порядка и единых правил формирования данных.

Несмотря на высокий уровень цифровизации, российские банки подходят к развитию ИИ с разнородной архитектурой и накопленным за десятилетия массивом несовместимых данных. По мнению экспертов, с увеличением числа продуктов и каналов обслуживания данные распределялись между десятками систем, каждая из которых формировала собственные хранилища и логику обработки. Это привело к расхождениям в атрибутах, дублям клиентских записей и разрыву между оперативными данными и данными аналитики. Кроме того, постоянный запуск новых сервисов при сохранении старой инфраструктуры сделал архитектуру данных разнородной и фрагментированной.

Ситуацию усиливает и отсутствие единой стратегии работы с данными. «Отсутствие четкой стратегии по управлению данными приводит к своеобразному хаосу, когда в компании нет системного подхода и каждый вносит свою логику. Основная задача — не допускать накопления некорректных данных и организовывать профилактику с помощью специальных решений Data Quality»,— отмечает Василий Куць. Он полагает, что нейросети и современные алгоритмы не всегда могут справиться с ситуацией: хотя они частично упорядочивают данные, точность их ограниченна. При этом объем данных растет быстрее, чем банки успевают выстраивать процессы их контроля. Клиентские сведения меняются, вводятся вручную, не всегда проходят валидацию, а отдельные параметры остаются неактуальными годами. В результате качество данных, важное для операционных задач, становится критичным для ИИ-моделей, которые зависят от согласованности и полноты входной информации.

В техническом долгу перед ИИ

Появление ИИ усилило значение качества данных. Раньше аналитические системы могли работать даже с неполной или частично структурированной информацией. Сегодняшние модели требуют строгой согласованности: даже небольшое различие между системами приводит к тому, что ИИ начинает выдавать разные или непредсказуемые результаты. И тогда слепой ведет слепых.

Особенно чувствительными оказались модели для риск-менеджмента, скоринга, антифрода и KYC (англ. «know your customer» — «знай своего клиента», процесс проверки личности клиентов, который используется финансовыми организациями и другими компаниями для предотвращения мошенничества, отмывания денег и финансирования терроризма): в этих зонах ИИ зависит от полноты и актуальности клиентских данных, и ошибки недопустимы. Наличие дублей, расхождения в паспортных данных, устаревшие контакты или несовместимые форматы становятся ограничением, которое ИИ не может компенсировать.

Высокая стоимость вычислений делает качество данных еще важнее: чем больше ошибок и несоответствий, тем дороже обходится обучение моделей. Значительная часть усилий уходит не на сами алгоритмы, а на подготовку данных: их очистку, проверку и приведение к единому виду. По оценкам рынка, на эти задачи дата-сайентисты тратят до 70–80% рабочего времени. В итоге ИИ, который должен был ускорить работу, становится скорее показателем слабых мест в архитектуре данных. То, что ранее считалось техническими нюансами, теперь напрямую ограничивает внедрение ИИ и снижает его практическую отдачу.

Долгое время банки воспринимали качество данных как техническую задачу, которую можно решать внутри ИТ-подразделений по мере необходимости. Такой подход работал, пока речь шла о локальной аналитике или отдельных отчетах. Но с ростом объемов данных и появлением ИИ стало понятно, что несогласованность процессов приводит к накоплению ошибок и мешает масштабировать новые технологии.

Во многих организациях данные формировались по мере запуска новых сервисов, без единого набора правил. Часто не было понятно, какие сведения считать эталонными, кто отвечает за их актуальность и как фиксировать изменения. С точки зрения владельца продукта PIX BI Сергея Полехина, абсолютной точности и полной согласованности данных добиться невозможно, но важно обеспечить такой уровень их качества, «при котором данные остаются надежной основой для принятия решений», а фрагментация и дублирование только усложняют эту задачу.

В последние годы банки начали переходить к более системной работе: создают дата-офисы, вводят ответственных за качество данных, формализуют метрики. По словам зампредседателя правления банка ДОМ.РФ Николая Козака, качественные данные требуют не только технологий, но и общей культуры — «единых подходов к приоритизации, правилам формирования и контролю». Однако подобный подход пока внедрен не во всех организациях, и процессы нередко остаются разрозненными.

Дополнительная сложность связана с технологическим долгом. На это прямо указывает директор по продукту «Триафлай» Александр Щелканов: «Многие банковские системы долгие годы развивались несогласованно, и сегодня выравнивание данных превращается в масштабный технологический долг, который необходимо закрывать, прежде чем строить полноценные решения на базе ИИ». По сути, речь идет о многослойной инфраструктуре, где новые проекты ложатся на еще не согласованную архитектуру данных. Это снижает точность моделей и делает эффект от ИИ менее заметным, чем он мог бы быть при сопоставимых инвестициях.

Если данные в разных системах расходятся между собой, возможности ИИ оказываются ограниченными. Как подчеркивает Сергей Полехин, если в разных системах хранятся разные значения одного и того же параметра, никакая модель не сможет стабильно работать: «Даже качественные данные, собранные из разных источников, могут оказаться непригодными для использования, если у них отсутствуют общие идентификаторы или метаданные, позволяющие их увязать. Например, разрозненные данные могут быть связаны по времени или типу операций, но, если первоначально не были предусмотрены механизмы интеграции, их совместное использование затрудняется». Поэтому даже продвинутые модели остаются зависимыми от качества исходной информации и не заменяют базовых процессов валидации, реконсиляции (процесс сравнения и согласования данных между двумя или более системами для обеспечения их целостности и идентичности) и контроля данных.

По мере того как банки переходят от разрозненных проектов к более упорядоченной работе с данными, возможности ИИ будут расширяться. Технология станет эффективной в тех сегментах, где удастся обеспечить достаточную точность, актуальность и полноту данных. В этих условиях ИИ может стать не дополнительным инструментом, а частью базовой операционной инфраструктуры, влияя на принятие решений и качество обслуживания. Однако для отрасли в целом этот переход требует времени. Масштабное применение ИИ станет возможным только в тех организациях, где работа с данными включает единые стандарты, оценку рисков и непрерывный контроль качества.

Пока данные остаются разнородными, фрагментированными и недостаточно управляемыми, эффект от применения ИИ будет ограничен. Даже самые продвинутые модели опираются на согласованные, актуальные и проверенные данные, и в отсутствие такого фундамента они не смогут работать предсказуемо и масштабироваться. Для банковского сектора это означает, что инвестиции в ИИ начнут приносить сопоставимый результат только тогда, когда качество данных достигнет уровня, при котором информация во всех системах совпадает по ключевым параметрам, регулярно обновляется и проходит прозрачный контроль. Иначе искусственный интеллект останется надстройкой, которая вынуждена компенсировать архитектурные проблемы, а не раскрывать собственный потенциал.

Константин Анохин