Данные общего пользования
Как бизнес и государство делят «цифровое сырье»
Последние десять лет российский рынок Big Data развивался по модели закрытых контуров: корпорации и ведомства занимались накоплением ценной для них информации. Однако в ходе реализации нового нацпроекта «Экономика данных» такая стратегия зашла в тупик. Для обучения суверенных нейросетей и создания прогнозных моделей государству и бизнесу требуются объемы данных, которые невозможно собрать самостоятельно. На повестку выходит вопрос создания среды обмена, которая одновременно обеспечит соблюдение нормативных требований по защите чувствительных категорий данных и взаимное обогащение данных различных отраслей.
Фото: Getty Images
Фото: Getty Images
Информация — топливо для ИИ
Развитие отечественных нейросетей и вычислительных моделей предиктивной аналитики требует обучающих выборок, которые сегодня фактически распределены внутри экосистем крупнейших банков, ритейлеров, телеком-операторов и государственных реестров. Дефицит создает риск того, что российские LLM (большие языковые модели) и ИИ-решения отстанут в развитии от мировых, не имея доступа к живым данным о поведении потребителей и рыночных транзакциях. Если алгоритм обучается на недостаточном количестве данных, он может выдавать неточные или низкокачественные результаты.
В правительстве Москвы, например, подчеркивают: управление современным мегаполисом уже сложно представить себе без работы с большими данными. «Города по всему миру переходят от базового анализа массивов данных к прогностическому моделированию с использованием ИИ, и Москва следует этому тренду»,— отмечает заместитель руководителя ДИТ Москвы Владислав Шишмарев. По его словам, самые прорывные кейсы — от генеративного проектирования до персональных ИИ-помощников — рождаются на стыке взаимодействия государственных и коммерческих данных. «Зачастую исключительно городских данных не хватает для решения комплексных задач, поэтому привлечение коммерческой информации становится необходимым фундаментом для развития городов по всей стране»,— уверен господин Шишмарев.
Уже сейчас, по словам Владислава Шишмарева, ИИ помогает в разметке, очистке и смысловой обработке данных, а также алгоритмическом прогнозировании. Одним из самых амбициозных проектов Москвы, говорит он, является сервис «Генеративное проектирование» в «Цифровом двойнике города» — сложнейшая разработка, в основе которой лежат большие данные и искусственный интеллект. Такое сочетание технологий и глубокого понимания принципов градостроительного проектирования позволяет спроектировать новый район «нажатием одной кнопки»: система, исходя из заданных параметров этажности и плотности застройки, может самостоятельно рассчитать размещение жилых корпусов, школ, поликлиник, а также благоустройство территории и транспортную сеть для будущего населения.
В системно значимых банках полагают, что кросс-отраслевой обмен — это фактор ускорения бизнеса. «Банки обладают значительными массивами транзакционных данных, которые сами по себе формируют сильную базу для прикладных моделей. Кросс-отраслевые данные являются фактором расширения сценариев, но не критическим условием развития»,— поясняет руководитель Лаборатории ИИ Департамента больших данных Россельхозбанка Даниил Потапов.
При этом элементы кросс-отраслевого взаимодействия в банковской сфере уже присутствуют, поясняет господин Потапов, прежде всего в формате партнерств и интеграций с внешними платформами, включая государственные информационные сервисы и отраслевые решения в АПК. «Такие взаимодействия позволяют обогащать модели дополнительными контекстными данными (например, отраслевой аналитикой или справочной информацией), однако полноценный обмен сырыми данными между отраслями ограничен регуляторами»,— напоминает эксперт.
Сложности обогащения: криптография против тайн
Главным препятствием для создания «общего котла» данных остаются юридические и этические риски. Традиционное обезличивание (удаление ФИО) не гарантирует безопасности чувствительных данных, включая персональные, говорят участники рынка. Теоретически риск восстановления исходных данных действительно существует и касается не только созданных на основе консолидированных данных государства и бизнеса моделей — степень риска зависит от архитектуры модели, характера данных и примененных методов защиты, добавляет руководитель направления по работе с органами государственной власти компании «МТС Линк» Александр Чернышев: «Исследователи проводили эксперименты, которые отчасти доказывали возможность повторной идентификации. В реальности полное обезличивание информации для ИИ почти недостижимо, но достижима ее анонимизация до такой степени, когда вероятность восстановления данных становится крайне низкой с учетом доступных технологий и ресурсов».
В ответ на указанные риски индустрия переходит к технологиям конфиденциальных вычислений (Privacy Enhancing Technologies). «Компании приходят к выводу, что прорывные решения рождаются при объединении данных разных игроков, но прямой обмен сопряжен с высокими рисками и штрафами за утечки вплоть до оборотных»,— напоминает руководитель монетизации данных для кредитного бизнеса Т-Банка Анна Лагунова. Банк, по ее словам, развивает собственный технологический стек многосторонних вычислений (MPC) и проводит пилотные проекты по конфиденциальному обучению моделей вместе с партнерами. Эти технологии дают Т-Банку возможность обучать кастомные ИИ-модели, не раскрывая исходных наборов данных и не передавая вовне информацию. «Дополнительно открываются возможности для совместной аналитики, построения отраслевых бенчмарков и более глубокого понимания профиля клиента в конкурентной среде — и все это без раскрытия клиентских данных»,— подчеркивает госпожа Лагунова. Технология уже вышла за пределы академических лабораторий. На рынке работают платформы, где более десяти кредитных организаций используют MPC для совместной оценки кредитоспособности клиентов, добавляет эксперт.
Этот подход поддерживают и разработчики инфраструктуры. Директор по исследованиям и разработкам компании «Убик» (группа Arenadata) Петр Емельянов отмечает стратегический сдвиг: отказ от перемещения данных в пользу делегирования алгоритмов в локальные контуры организаций. «Использование методов криптографии позволяет обрабатывать банковскую, медицинскую и государственную тайну, не нарушая законодательства»,— поясняет господин Емельянов. «Важно понимать технический компромисс: такие протоколы требуют больших вычислительных мощностей и работают медленнее стандартных операций. Однако этот "налог на безопасность" оправдан возможностью легитимного использования чувствительных данных»,— заключает эксперт.
Инфраструктурный вызов
Создание единого хранилища для обогащения данных эксперты считают экономически необоснованным. Попытки централизации сталкиваются с проблемой «двойной цены» — когда заказчик платит за хранение данных сначала на месте их возникновения, а затем за дублирование в ЦОДе. «Традиционные Data Lakes превратились в барьеры на пути к масштабированию ИИ. Попытки создания единого мегахранилища напоминают "Котлован" Андрея Платонова: бесконечный процесс рытья фундамента для "общего дома", который рискует никогда не быть заселенным»,— отмечает Петр Емельянов. По его мнению, индустрия должна перейти к распределенной архитектуре хранения, которая позволяет использовать уже оплаченные мощности на местах. Регуляторная база для такого перехода, по его словам, уже готовится: «Это переведет конфиденциальные вычисления из области экспериментов в плоскость юридически значимых решений».
Кроме того, у организаций уже есть существующая ИТ-инфраструктура бизнес-юнитов или ведомств, напоминает Петр Емельянов: «Распределенный подход позволяет использовать уже оплаченные мощности. Переход к распределенным системам невозможен без решения вопроса доверия. Здесь мы заменяем человеческий фактор и юридические гарантии математическим доказательством через криптографию».
В РСХБ разделяют подобный подход: как и в других системно значимых кредитных организациях, в банке используются интеграции с государственными сервисами (например, через инфраструктуру системы межведомственного электронного взаимодействия), что позволяет получать юридически значимые данные в рамках действующего законодательства. Отдельное значение, добавляет Даниил Потапов, это имеет для работы с агропромышленным сектором, где госреестры являются важной частью клиентского профиля.
Таким образом, резюмирует Петр Емельянов, эволюция от накопления данных к их совместному безопасному использованию через распределенные системы является единственным путем к созданию суверенного и эффективного искусственного интеллекта в масштабах страны.