Код прошлого

Почему даже «неидеальная» расшифровка рукописей — это прорыв для науки

Последние годы в публичном пространстве все чаще встречаются сенсационные сообщения о прорывных открытиях в гуманитарной науке, совершенных благодаря расшифрованным рукописным документам. Если ориентироваться на информацию, циркулирующую в медийном поле, то создается иллюзия, что проблема решена.

Стоит пользователю ввести в поисковую строку Yandex или Google комбинации словосочетаний, связанных с расшифровкой рукописей, он получит множество предложений, доступ к которым соблазнительно прост. Диапазон разработчиков также чрезвычайно широк. На этом фоне присутствуют и действительно значимые проекты. Не так давно «Яндекс» объявил о том, что научился распознавать записи в метрических книгах, ревизских сказках. Еще несколько громких событий — дигитализация архива Петра Первого, обнаружение новых данных в черновиках Достоевского и Пушкина. Такие реальные достижения — результат кропотливой совместной работы математиков и гуманитариев, поисков общего языка, постановки исследовательских задач. Для тех, кто внимательно следит за процессом или непосредственно имеет дело с конкретными рукописными корпусами, очевидно наметившееся разделение. С одной стороны, существует парадная сцена эффектных презентаций. С другой — рабочее лабораторное закулисье, пребывание в котором освобождает от ложных ожиданий, дает возможность наметить перспективы развития важного направления.

«Ъ-Наука» записал беседу Леонида Местецкого, профессора, доктора технических наук ВМК МГУ, НИУ ВШЭ, и Елены Пенской, профессора, доктора филологических наук НИУ ВШЭ, МФТИ, о методах и научных задачах распознавания рукописей.

— Леонид Моисеевич, вы давно занимаетесь созданием инструментов для работы с нераспознанными растровыми изображениями. А у нас с вами накопился непростой совместный опыт. В частности, он связан с изучением неопубликованных дневников драматурга и философа Александра Сухово-Кобылина. Почему этот вектор на стыке математики и гуманитаристики представляется особенно актуальным? В чем кроются трудности?

— Современные информационные технологии сделали доступными архивные рукописи для широкого круга людей благодаря оцифровке бумажных документов — высокоточному электронному сканированию. Непосредственными читателями архивных документов являются профессиональные исследователи: историки, филологи, лингвисты, архивисты. Через них культурное наследие становится доступным обществу в виде опубликованных печатных текстов. Заинтересованные читатели получают возможность приобщиться к этим культурным ценностям опосредованно, через небольшое сообщество людей, профессионально работающих с рукописными документами.

Работа с архивными рукописями является весьма трудоемкой из-за большого объема текстов, старой орфографии, сложных почерков, а также дефектов, присущих древним бумажным документам. Поэтому проблема применения современных информационных технологий при работе с историческими рукописными документами является весьма актуальной. В основе таких технологий лежит распознавание образов — наука, изучающая методы и алгоритмы классификации объектов, явлений или процессов на основе их свойств и признаков.

Алгоритмы распознавания рукописных текстов строятся на принципах машинного обучения. Качество обучения существенно зависит от почерка, стиля, словаря конкретных документов. Чем больше вариативность этих параметров, тем сложнее обучить алгоритм правильному распознаванию, тем больше алгоритм делает ошибок. С этой точки зрения рукописные дневники представляют собой особый, важный вид рукописей, для которых успешное распознавание возможно. Особыми свойствами дневников являются единый почерк, единый стиль форматирования текста, а также высокий культурный уровень авторов, большие объемы рукописей. Рукописные дневники писателей, ученых, военачальников, хранящиеся в российских архивах в виде тысяч страниц, составляют важную часть национального культурного наследия.

— Мы понимаем, что присутствует некоторая размытость терминологии в этой сфере. Как бы вы определили ключевые понятия?

— Под термином «распознавание рукописного текста» обычно понимается процесс перевода изображения рукописного текста в редактируемый текстовый формат. Мы будем трактовать этот термин более широко, а для перевода рукописи в текстовый формат использовать термин «расшифровка рукописного текста». Это преобразование выглядит как естественный желаемый результат в глазах исследователей-гуманитариев, поскольку оно позволяет использовать в работе с рукописными текстами те же средства, что и с печатными.

Действительно, для работы с текстовым форматом в современных компьютерах существует множество средств, технологии работы с которыми освоены миллионами конечных пользователей. Поэтому от разработчиков программного обеспечения гуманитарии ждут очень простого и понятного результата: нужно сделать программу автоматического перевода рукописи из графического формата изображения в формат обычного текстового файла, с которым можно будет работать с помощью общедоступных текстовых редакторов. В качестве прототипа такого решения обычно рассматриваются системы OCR (Optical Character Recognition), которые преобразуют печатный текст из формата сканированного изображения в текстовый файл.

— Какие препятствия существуют на пути применения машинных технологий, апробированных на привычных текстах, к рукописям?

— Имеются существенные различия результатов расшифровки сканированных изображений печатных и рукописных текстов. Качество перевода печатного текста в современных OCR-алгоритмах весьма высокое, ошибки очень редки. Уровень ошибок соизмерим с ошибками высококвалифицированной машинистки, которые составляют по нормативам около трех опечаток на один машинописный лист с двойным интервалом (примерно 1860 знаков), то есть 0,16%. Ошибки в алгоритмах расшифровки рукописного текста достигают 5–10%, то есть 100–200 ошибок на лист. Столь невысокое качество расшифровки рукописных текстов связано, во-первых, с чрезвычайным многообразием почерков и стилей письма, а во-вторых, с большой долей черновиков в рукописных документах и присущим им разнообразием редакторских правок: зачеркиваний, исправлений, вставок и т. п.

Будем называть идеальный качественный перевод рукописи в текстовый файл точной расшифровкой, а перевод, полученный компьютером,— слабой расшифровкой, имея в виду присущее такому переводу большое количество ошибок. Высокий уровень ошибок компьютерного перевода ставит под сомнение возможность его использования при работе с рукописными текстами. Однако, несмотря на кажущуюся бесполезность, применение слабой расшифровки может внести существенный вклад в работу гуманитария с большими массивами рукописных данных. Таковыми являются операции подстрочного перевода, поиска, навигации, индексирования.

— В чем вы видите «дихотомию» слабой и точной расшифровки? Как эти виды дополняют или, может быть, взаимоисключают друг друга? Какие рекомендации можно предложить гуманитарию при анализе и формулировании этих операций, оценке их применимости в работе с Big Data — большими массивами архивных рукописей, а также их практической реализации?

— Слабая расшифровка может служить основой для получения точной расшифровки. Точную расшифровку будем называть подстрочником, что согласуется с традиционным использованием этого термина: «Сделанный слово в слово, совершенно точный, буквальный перевод» [Ефремова Т. Ф. Современный толковый словарь русского языка / Изд. Астрель, 2006]. Подстрочный перевод исторических документов в науке широко распространен. Также он востребован при издании книг и статей с переводами или цитированием рукописных документов.

— Насколько необходима фигура посредника-профессионала? Если без него нельзя обойтись, то каковы его функции?

— Получение подстрочника осуществляется профессиональным исследователем, специалистом, работающим с наследием автора рукописи, хорошо понимающим культурный уровень автора и особенности его стиля. Для краткости будем называть такого специалиста экспертом.

Эксперт может получить точную расшифровку рукописи полностью ручным методом. Для этого он, имея перед глазами только лишь изображение рукописной строки на экране компьютера, расшифровывает ее содержание и вводит перевод в виде текстовой строки с клавиатуры компьютера с помощью текстового редактора. Результатом является точная расшифровка строки.

Если в распоряжении эксперта имеется программа-переводчик, он может получить слабую расшифровку в виде текстовой строки, сформированной алгоритмом расшифровки. При этом полученная текстовая строка может содержать различные ошибки и неточности. Точную расшифровку эксперт может получить, исправив найденные ошибки вручную с помощью текстового редактора. Такой метод получения расшифровки будем называть редакторским.

Источником повышения эффективности редакторского метода расшифровки по сравнению с ручным является, во-первых, сокращение трудозатрат на технические операции по вводу и редактированию текста. Полный ввод строчек требует больше времени и внимания оператора, чем редактирование слабой расшифровки в текстовом редакторе. Несмотря на ошибки слабой расшифровки, значительная часть текста переводится правильно. Поэтому при редактировании эксперт вносит лишь небольшие корректировки в перевод. Но, кроме этого, как показывает опыт, часто возникают ситуации, когда человеческий глаз не позволяет разобрать слова и строчки рукописи, а алгоритм расшифровки справляется с переводом. В этом случае даже одно-два правильно расшифрованных алгоритмом слова открывают смысл текста и являются подсказкой для понимания и точного перевода.

Таким образом, получение слабой расшифровки является полезным инструментом для подстрочного перевода. Особенно ценно использование слабой расшифровки при составлении подстрочника для больших рукописных текстов. Например, при подготовке к изданию архивных дневников.

— Спектр исследовательских задач гуманитария объемен. В каждом случае присутствует своя специфика, зависящая от многих факторов, прежде всего контекстных. Возможно ли наметить ключевую универсальную задачу и математические механизмы для подступа к ней?

— Автоматический перевод в виде слабой расшифровки неизбежно содержит большое количество ошибок и отказов от распознавания. А это значит, что прочтение и визуальный анализ оригинального рукописного документа в любом случае остается непременным элементом в работе исследователя при любой автоматизации. Поэтому исследователь должен иметь постоянную возможность работать с первоисточником — оригинальным изображением рукописных страниц, а полученный перевод может использоваться лишь как вспомогательное средство для ускорения работы.

Независимо от качества полученной расшифровки текстовый массив перевода имеет очень большой объем — это сотни и даже тысячи рукописных страниц. Для работы эксперта с таким массивом на первый план выходит задача поиска нужных данных. Традиционная ручная технология работы исследователя с архивами, когда человек последовательно листает страницу за страницей, читает и делает выписки или фотокопии, является слишком затратной и медленной. Цель улучшения технологии состоит в ускорении поиска. При ручной технологии исследователь тратит недели и месяцы на поиск нужной информации в большой коллекции документов. В результате использования машинного поиска на это будут тратиться минуты и даже секунды. Такой чисто количественный выигрыш открывает качественно новые горизонты для исследователя.

Появляется возможность многовариантного разведочного поиска, формулирования и проверки большего числа гипотез, постановки и решения более масштабных задач исследований. Таким образом, технический результат в виде сокращения на два-три порядка времени выполнения поисковых запросов способствует радикальному качественному продвижению исследований в истории, филологии, литературоведении и других областях науки и культуры, связанных с работой в архивах.

Высокая эффективность технологий поиска привели к революционным изменениям в работе с текстовыми данными, что демонстрируют системы Google, Yandex. Поисковые запросы в этих системах включают ключевые слова, комбинации слов, целые фразы. Но при этом поиск осуществляется в текстовых файлах. Для переноса этой технологии в рукописные архивы нужно обеспечить поиск в рукописи слов и фраз, которые пользователь вводит с клавиатуры, в больших массивах рукописных текстов. Один из возможных подходов к созданию такой технологии состоит в использовании слабой расшифровки. Идея состоит в том, что даже при относительно большом уровне ошибок автоматического перевода можно рассчитывать, что искомые слова в имеющемся подстрочнике будут не очень сильно отличаться от ключевых слов в запросе. В этом случае найти такие слова можно путем просмотра слов файла и их последовательного сравнения с запросом. Но метрика сравнения должна быть более мягкой, чем при поиске в обычных текстовых файлах. Слова могут не совпадать полностью, а различаться небольшим количеством букв.

Благодаря программе «Подстрочник», обучающей разметке рукописных дневников А. В. Сухово-Кобылина (в РГАЛИ находятся 35 тетрадей, что составляет несколько тысяч непрочитанных страниц), удалось наметить поисковые задачи, перейти к тематическому моделированию, восстановить датировки событий, подробности быта и отношений внутри нескольких знаменитых семейных кланов: известных писателей Евгения Салиаса, исторического романиста, «русского Дюма», Евгении Тур, художницы Софьи Сухово-Кобылиной, родных сестер драматурга, Николая Огарева, Константина Аксакова, Александра Герцена и многих других; реконструировать коммуникационные сети, а также восстановить топографию мобильности внутри этого круга, что в целом дополнило наши представления о смысле театральной трилогии «Картины прошедшего», об «инженерных и математических прозрениях» и содержательных особенностях, адресатах философской системы «Всемир», которую Сухово-Кобылин создавал на протяжении полувека. Но наша работа далека от завершения.

Проект РНФ №22-68-00066 «Культурное наследие России: интеллектуальный анализ и тематическое моделирование корпуса рукописных текстов»