Президент Владимир Путин поручил Минцифре России совместно с Росархивом и Российской Академией наук рассмотреть вопрос об организации оцифровки документов Архивного фонда Российской Федерации и других архивных документов — с применением технологий искусственного интеллекта (ИИ). Что может означать эта инициатива президента для государства, граждан и представителей рынка?
Фото: Александр Черных, Коммерсантъ
Ценность проекта и сроки
Внимание президента к защите исторической правды и многонациональной идентичности России находит выражение и в новой инициативе по оцифровке, уверены эксперты.
«Архивы — это и есть “большие данные” России, безбрежное море исторической памяти Российской Федерации, наполненное самыми различными документами,— говорит Павел Кюнг, директор Всероссийского научно-исследовательского института документоведения и архивного дела (ВНИИДАД).— Их перевод в цифровой вид — возможность дать каждому гражданину прикоснуться к истории страны, общества, семьи и отдельного человека».
Прецеденты масштабной оцифровки в России уже есть. Например, большой проект по оцифровке актов гражданского состояния из фондов ЗАГС, который длился с 2018 по 2020 год, напоминает Илья Веригин, директор по работе с государственными заказчиками компании «Биорг», отечественного разработчика решений для оцифровки документов и обучения ИИ (резидент фонда «Сколково», группа ВЭБ.РФ).
Проект может занять как 10–20 лет, так и все 100. Многое будет зависеть от выделенных средств, наличия техники и специалистов. Необходимо сформировать региональные центры сканирования и закупить в них оборудование — от обычных потоковых до планетарных сканеров.
«Учитывая количество оборудования, которое может потребоваться, под такой масштабный государственный проект можно было бы начать вкладывать деньги в развитие собственной отрасли производства сканеров. Сейчас за некоторым исключением все оборудование у нас иностранное»,— надеется Павел Кюнг.
Как архивами пользуются сегодня
Традиционно с документами из государственных и муниципальных архивов работают исследователи, историки. Именно они выстраивают историческую память страны, когда выпускают монографии, учебники и т. д. Доля исследователей в общем количестве пользователей архивов не самая большая.
Основной массив запросов связан с генеалогическими изысканиями: люди интересуются историей своей семьи, своего края, хотят установить связь поколений с местностью.
На втором месте социально-правовые запросы — граждане запрашивают подтверждающие справки, что где-то работали, когда оформляют положенные им пенсионные выплаты.
В архивах хранится научное наследие России — научно-исследовательская и техническая документация. Архивы также в экстренном порядке сохраняют у себя все документы, оставшиеся при ликвидации организаций.
Количество и стоимость работы
Предварительно размер архивов в России эксперты оценили в 520 млн единиц хранения. «В среднем в единице хранения 100 листов, но может быть и более 1000 листов. Отсюда общий размер архивов приблизительно можно минимально оценить в 52 млрд страниц»,— рассуждает Илья Веригин из «Биорг».
Даже если заложить всего один рубль на сканирование, что очень мало, при двухстороннем распознавании можно говорить о сумме более 100 млрд руб.
Сканирование исторических документов может стоить и 500 руб. за страницу. Эти репродукции важно сохранить в первозданном виде и максимальном качестве — вплоть до оттенка выцветшей бумаги, подсчитывает эксперт.
Документы надо еще подготовить: какие-то из-них предварительно отреставрировать, расшить, после сканирования вновь сшить, упаковать. «Подлинность цифровой копии будет гарантирована исключительно наличием сохраненного подлинника»,— предупреждает Павел Кюнг.
В чем отличие сканирования от распознавания? Роль ИИ
Оцифровку подразделяют на сканирование документов и распознавание информации на сканах.
Скан для машины — это обычная цельная картинка, информацию с нее нельзя перенести в базу данных. А значит, сканирование не упростит сотрудникам поиск и выдачу справок, технической документации и т. д.
«Чтобы машина восприняла данные — печатный или рукописный текст, чертеж, картинку и т. д., их необходимо распознать. Нужно не только специальное ПО, но и штат операторов-верификаторов, особенно когда речь заходит о рукописях — их современные системы «видят» с качеством не выше 50–70%»,— объясняет Илья Веригин.
Люди проверят за нейросетями точность распознавания и сделают качественную разметку массивов данных по мере их накопления. Это поможет обучить ИИ для дальнейшего автоматического распознавания.
«Автоматизировать процесс распознавания на основе ИИ может быть не так просто. Данные в архивах слабо структурированы, не соответствуют единой форме. А искусственный интеллект лучше справляется с формализованными задачами»,— осторожно оценивает возможности технологии Павел Кюнг. Он также указывает, что архивные фонды — это не только документы, а еще и, например, кинопленка, видео.
Цифровой помощник
Проблему обработки неструктурированных данных можно решить с помощью обучения цифрового помощника. Эти сложные нейросетевые комплексы способны увидеть и проанализировать отдельные смысловые сущности, зафиксированные в разном виде, выполнить функцию эксперта-человека, прогнозирует Илья Веригин.
При оцифровке архивов речь может идти про распознавание имен, адресов, других высокочастотных типов данных. Трудности возникнут там, где рукописный текст накладывается на печатный или где поверх текста стоят штампы и визы. Например, пятиконечные звезды поверх рукописного текста в военных билетах нейросети просто слепят.
Всем миром
Чтобы работать в паре с ИИ и контролировать результат его действий, потребуется нанять десятки тысяч человек. Возможно, к проекту подключится Минтруд. Если приобщить к оцифровке архивных сведений граждан из наименее социально защищенных слоев, они смогут получить дополнительный доход, деньги останутся в экономике регионов, предполагает Веригин.
Это большое количество вакансий для удаленной занятости. Однако необходимо сразу продумать вопрос информационной безопасности, так как архивы содержат огромные объемы документов, связанные с различными тайнами и ограничениями, предупреждает Павел Кюнг.
Единая платформа
Применять ИИ-технологии параллельно с человеческим трудом целесообразно в рамках единой технологической платформы.
«Это может быть облачное решение, куда будут стекаться данные из региональных центров сканирования. Часть информации распознают нейросети, а перепроверят за ними люди»,— схематизирует Илья Веригин.
Через облако люди из разных регионов и часовых поясов смогут работать с личных компьютеров или даже со смартфонов через мобильное приложение. Это обеспечит непрерывность оцифровки.
С единым инструментом будет проще проверять выполненные работы. А процедуры проверок обязательно будут назначены по такому масштабному проекту. Кроме того, получится избежать несостыковок, когда из различных систем поступает разнородная информация. Наконец, подход соответствует духу времени — единые платформы для шеринга персонала становятся очень популярны в мире, заключают эксперты.