Большие данные пошли в рост

Как бизнес и государство строят экономику данных

В минувшем году одним из ключевых событий для IT сектора России стало принятие нового национального проекта «Экономика данных и цифровая трансформация государства» до 2030 года. Он направлен на цифровизацию госуправления, экономики и социальной сферы. В этой связи развитие рынка больших данных, их аналитика и безопасность выходят на первый план. "Ъ-Review" разбирался, как бизнес будет развивать дата-стратегии в 2026 году, а также какую роль в этом сыграют синтетические данные, которые станут основной для обу­чения ИИ.

Фото: Игорь Иванко, Коммерсантъ

Фото: Игорь Иванко, Коммерсантъ

Без анализа нет данных

Объем российского рынка Big Data и искусственного интеллекта (ИИ) по итогам 2025 года может достичь 520 млрд руб., подсчитали в Ассоциации больших данных, Б1 и TAdviser. В 2024 году рынок оценивался в 433 млрд руб., среднегодовой темп роста составляет около 20%. Рынки оцениваются вместе, так как, с одной стороны, большие данные — «топливо» для ИИ, а, с другой, ИИ сам порождает огромные объемы данных, которые необходимо обрабатывать и хранить. Поэтому, Big Data и AI — связанные технологии, объясняют авторы исследования, уточняя, что один из факторов динамичного роста рынков — поддержка направлений со стороны государства. Так, федеральный проект «Искусственный интеллект» (входит в «Экономику данных») предусматривает бюджетное финансирование 15,7 млрд руб. на 2024–2026 гг.

В исследовании также отмечается, что особенностью российского рынка данных остается продажа не исходной информации, а обезличенных аналитических отчетов и готовых решений. Такая модель повышает себестоимость данных «из-за строгих требований к хранению и обработке информации», отмечают аналитики.

Иными словами, все чаще компании покупают не Big Data в привычном смысле, а обезличенные дата-сеты, аналитические модели и API-доступ к данным, то есть более сложные продукты на базе данных.

«Примечательно, что с ростом объема обрабатываемых данных спрос получат инструменты, позволяющие с помощью естественного языка сделать аналитику доступной для всех бизнес-пользователей, а также направление безопасности данных и их прослеживаемости», - говорит руководитель центра ЭДО, структуры и качества данных Северстали Сергей Герасимов. По мнению эксперта, в 2026 году в приоритете будет повышение операционной эффективности за счет использования AI-инструментов на накопленном массиве данных в компаниях.

Благодаря генеративному ИИ качество данных улучшается еще на этапе написания кода, говорит архитектор ООО «Цифровые технологии и платформы» (АО «МХК «ЕвроХим») Антон Сокольников: «Нейросети помогают инженерам создавать конвейеры (ETL –  Extract, Transform, Load — «извлечение, преобразование, загрузка»; процесс обработки данных) сразу с автотестами: система сама генерирует проверки (например, «здесь не может быть нуля»), это позволяет блокировать «грязные» данные на входе, а не искать ошибки в отчетах».

Безопасный обмен

Главный вызов для отрасли с точки зрения безопасности — использование GenAI (генеративный ИИ) на чувствительных данных (а таким данным относится информация, содержащая коммерческую тайну, медицинскую информацию, персональные данные и др. – прим. "Ъ-Review"), говорит Антон Сокольников. Решением, по его словам, становится синтетизация: процесс, когда данные заменяются синтетическими «двойниками», они сохраняют статистические свойства, но очищены от коммерческой тайны.

«В таком случае ИИ учится на «синтетике» в облаке, а работает с реальными данными через защищенные шлюзы внутри периметра. Архитектурно это приводит к гибридной схеме», - объясняет Антон Сокольников. В такой модели, по его словам, хранение чувствительных данных остается локальным (on-premise – на серверах организации) для цифрового суверенитета, а самые тяжелые вычисления и обучение моделей выносятся в отечественные облака, где данные либо синтезируются, либо поступают в обезличенном или зашифрованном виде. «Это баланс между безопасностью периметра и мощностью облачных кластеров», - добавляет эксперт.

По прогнозу Gartner, основным ис­точ­ни­ком дан­ных для обу­чения ИИ к 2028 году, ста­нут именно син­те­тичес­кие дан­ные (60% от об­ще­го объ­ема) и дан­ные с IoT-дат­чи­ков («интернет вещей»27%).

Боль­ше тре­ти дан­ных бу­дут ге­нери­ровать­ся при по­мощи об­лач­ных вы­чис­ле­ний.

В части регулирования безопасности данных в 2025 году в России также произошли значительные изменения. В числе ключевых законодательных новелл бизнес отмечает новый приказ 117 ФСТЭК России, который вступит в силу в марте 2026 года. Он вводит дополнительные требования о защите информации, содержащейся в государственных и иных информсистемах госорганов. В частности, в соответствии с приказом, в объекты критической информационный инфраструктуры (КИИ; банки, ТЭК, телеком и др.) должны использоваться только сертифицированные средства защиты информации, вводятся строгие правила аттестации информационных системы (ИС) и иные требования.

Нововведения могут усложнить развитие рынка аналитики больших данных, так как потребуют от компаний дополнительных средств для обеспечения безопасности их передачи. Один из трендов, который развивается в этой части — спрос на конфиденциальные вычисления, говорит директор по исследованиям и разработкам компании ООО «Убик» (Группа Arenadata) Петр Емельянов: Gartner включила решения на основе конфиденциальных вычислений и машинного обучения в топ-10 стратегических технологических инициатив на 2026 год.

Стратегия на вырост

Сейчас компании вынуждены взаимодействовать в информационном поле, и до 70% новой коммерческой ценности появляется именно на границе обмена обезличенными данными для обогащения и анализа, объясняет господин Емельянов. Так, например, по данным исследования SWIFT, антифрод-модель, обученная на данных сразу 13 банков, работает в два раза лучше, чем та, что работает на данных одной кредитной организации. «Отдельные операции могут не вызывать подозрений в мошенничестве, и для того, чтобы его заметить, нужно взглянуть на всю картину целиком»,— говорит Петр Емельянов.

В бизнесе данные перестали быть просто «цифровым следом» компании и превратились в ключевой актив, от использования которого зависит их конкурентоспособность, отмечает директор по дата-стратегии Группы Arenadata Наджим Мохаммад. Согласно прогнозу Gartner, около 60% компаний с неэффективным управлением данными не могут успешно реализовать цифровую трансформацию, и в то же время, многие не имеют четкого плана перехода к работе на основе данных.

Дата-стратегия должна содержать четкие критерии, по которым можно будет оценить ее реализацию, говорит Наджим Мохаммад: это могут быть «доля решений, принимаемых на основе данных», «увеличение LTV (Lifetime Value) клиента за счет персонализации», «снижение операционных затрат благодаря оптимизации данных» или технические метрики наподобие «скорости обработки запросов», «процента заполненности дата-каталога» и т.д. Важно установить исходные значения и целевые ориентиры, а также назначить ответственных за мониторинг метрик, добавляет он.

Дальнейшие развития рынка больший данных может пойти по нескольким сценариям, считают в Ассоциация больших данных (АБД). На форуме AI Journey 2025 АБД представила стратегию развития рынка до 2030 года. В «консервативном» сценарии (дефицит капитала и кадров) развитие сектора покажет рост на 6 трлн руб. (2,7–2,8% ВВП) до 2030 года. В «Базовом» сценарии совокупный вклад сектора в 2025–2030 гг. уже в 10,5 трлн руб. (4,2–5,1% ВВП). Есть и «опережающий» вариант, он предполагает «накопленную прибавку» к ВВП до 2030 года в 12,5–14,5 трлн руб. (5,1–6,6% ВВП), но потребует форсированного внедрения Big Data и ИИ в экономику (в промышленности, энергетике, АПК и других отраслях), а также поддержки глобальной конкурентоспособности российского рынка и коммерциализации технологий.

Валерия Кузьмина