Управление данными: выход из хаоса
Почему компании переходят от накопления информации к системной работе с ней
Большинство корпоративных данных так и не становятся инструментом для бизнеса: они хранятся в разрозненных системах и не используются в аналитике. Специалисты отмечают, что переход к управлению жизненным циклом данных становится ключевым условием внедрения и устойчивой работы ИИ.
Фото: Shutterstock Premier / Fotodom
Фото: Shutterstock Premier / Fotodom
Компании в России и мире продолжают накапливать данные быстрее, чем успевают выстраивать процессы управления ими. По оценкам аналитиков, до 90% корпоративной информации остается так называемыми темными данными: фрагментированными, частично или полностью неструктурированными, недоступными для анализа. Согласно недавнему международному исследованию в области искусственного интеллекта и управления информацией, 64% организаций работают с массивами от 1 петабайта, а 41% — с объемами более 500 ПБ. Однако значительная часть этих данных либо не используется, либо хранится в изолированных системах, создавая расходы и дополнительные риски.
В РФ проблема усугубляется технологической разнородностью корпоративных IT-систем. В крупных компаниях данные распределены между сотнями устаревших и новейших IT-систем: от CRM и call-центров до локальных Excel-файлов сотрудников. В отсутствие единых правил обработки и понятной структуры ответственности данные становятся источником операционного хаоса: разные подразделения опираются на несогласованные сведения, а решения принимаются на неполной или противоречивой информации. Дополнительным фактором давления остаются регуляторные требования. Без четкой классификации и контроля доступа компании трудно обеспечить соответствие нормам, включая 152-ФЗ и отраслевые стандарты безопасности. По данным Роскомнадзора, за первое полугодие 2025 года обнаружено 35 утечек персональных данных, из-за которых в открытом доступе оказалось более 39 млн записей пользователей.
Еще один негативный эффект «темных данных» связан с увеличением рисков при использовании ИИ и аналитики. Модели машинного обучения работают на том, что им предоставлено, и при отсутствии контроля качества выдают некорректные, а иногда и потенциально дискриминационные выводы. В этих условиях «темные данные» становятся тормозом цифровых проектов: без понимания их происхождения, структуры и актуальности компания не может гарантировать достоверность расчетов и защиту информации.
Решение проблемы связано с переходом от простого накопления информации к управлению ее жизненным циклом. Такой подход включает создание единой архитектуры данных, закрепление ответственности, формирование каталогов, отслеживание изменений и контроль качества. Эта схема предполагает автоматизацию ключевых операций, таких как описание и классификация данных, что снижает объем ручной работы и делает информацию более доступной.
На рынке давно существуют инструменты, которые упрощают внедрение подобных практик. Речь идет о платформах класса Data Governance, позволяющих описывать данные, отслеживать их происхождение, проверять корректность, контролировать доступ и готовность к использованию в аналитике. Одна из отраслей, в которой интеллектуальный анализ «темных данных» может принести огромную пользу обществу, — это здравоохранение. В этой отрасли генерируется около 30% всех данных в мире. Вместо того чтобы выбрасывать, их можно анализировать, выявлять закономерности в медицинских записях, улучшать диагностику и оптимизировать планы лечения.
Российские решения DataGovernance показывают достаточно высокий уровень зрелости, сопоставимый с зарубежными аналогами. В этом году международная биофармацевтическая компания AstraZeneca выбрала российского разработчика TData для одного из ключевых проектов в рамках цифровой трансформации — внедрения российского продукта для управления большими данными. RT.DataGovernance создает единую экосистему для управления всем информационным массивом. Кроме того, практики Data Governance сокращают время на поиск и подготовку данных. По оценкам компаний, внедривших эти подходы, обучение сотрудников работе с данными занимает уже не месяцы, а недели. Этому способствует централизованный каталог, где каждому набору данных присвоены метаданные — источник, формат, правила доступа, владелец. Автоматизированная разметка и проверка качества снижают число ошибок и обеспечивают прослеживаемость — от исходного источника до аналитической модели.
«Когда данные не описаны и не имеют владельцев, ИИ работает вслепую. Data Governance дает понять, откуда берется информация, кто отвечает за ее качество и можно ли использовать ее в моделях»,— говорит гендиректор TData Станислав Лазуков. По его словам, именно прозрачность и управляемость данных становятся основой для внедрения ИИ-агентов и аналитических сервисов: модели могут работать корректно только в том случае, если исходная информация структурирована, проверена и доступна для контроля.
Эксперты полагают, что в ближайшие годы значение системного управления данными будет только возрастать. ИИ-агенты становятся основными потребителями корпоративной информации. Поэтому компании будут уделять больше внимания происхождению данных и их подлинности. Корректность аналитических систем и моделей ИИ определяется качеством исходных данных, на которые они опираются. Соответственно, прежде чем масштабировать цифровые решения, организациям придется обеспечить управляемость собственных данных — это становится фундаментом для развития ИИ и аналитики.