Научить машину читать

Математики НИУ ВШЭ создали нейросеть для расшифровки архивов

Дневники и письма — бесценный источник для историка. Но что делать, если текст невозможно прочитать? Именно с этой проблемой столкнулись исследователи, работающие с архивами драматурга Александра Сухово-Кобылина, мореплавателя Федора Литке и других деятелей прошлого. Их рукописи — настоящий вызов даже для опытных специалистов.

Рукопись драматурга А.В. Сухово-Кобылина

Рукопись драматурга А.В. Сухово-Кобылина

Рукопись драматурга А.В. Сухово-Кобылина

На государственном уровне проблему доступа к архивам пытаются решить с помощью ГИС УИАД — системы, которая собирает воедино оцифрованные фонды. Но она работает с картинками, а не с текстом. Гуманитарию по-прежнему нужно вручную просматривать тысячи страниц, если они не были расшифрованы. Никита Ломов, математик, кандидат физико-математических наук, и Елена Пенская, филолог, руководитель центра цифровых архивных исследований НИУ ВШЭ, решили подключить к расшифровке искусственный интеллект. Разработанная ими система не только распознает буквы, но и помогает анализировать текст. О том, как научить машину читать нечитаемое и зачем это историкам, ученые рассказали в интервью для «Ъ-Науки».

Елена Пенская: В чем суть и особенность информационной системы, которую вы разработали применительно к архивным рукописям?

Никита Ломов: Систематизация рукописных документов в архивах и библиотеках основана на распределении документов по фондам, листам и единицам хранения, нумерации страниц, присвоении названий. Оцифровка документов предоставляет пользователям электронных библиотек удобные механизмы навигации по упорядоченным коллекциям документов, что чрезвычайно полезно, даже если текст на изображениях не распознан. Наличие распознанного текста резко расширяет возможности работы с коллекцией, например, позволяя обрабатывать поисковые запросы и выделять часто используемые словосочетания. Но более интересный способ навигации по архиву связан с семантическим анализом текста — здесь пользователь выделяет фрагменты, посвященные определенной тематике или связанные с выбранным предметом интереса, например персоной. Желательно предоставить пользователю определенную свободу при составлении поисковых запросов, позволяя формулировать запрос в произвольной форме и включать в результат синонимичные слова. Эти возможности обеспечиваются современными достижениями в области машинного обучения, позволяющими достаточно успешно распознавать рукописный текст с помощью моделей компьютерного зрения и выделить в нем упоминания объектов исследовательского интереса с помощью больших языковых моделей. Так как текст на страницах рукописных документов естественным образом разделен на строки, объектом анализа в нашем случае выступает строка текста, каждую из которых можно выделить на изображении. В итоге мы получаем организацию архива по содержанию, используя системы двунаправленных связей: от предметов интереса (сущностей) мы можем переходить к конкретным строкам и страницам, где сущности фигурируют, а для страницы и ее строк мы имеем построчный список упоминаемых сущностей.

ЕП: С какими массивами данных вы работали?

НЛ: В ходе нашего проекта мы исследовали сразу несколько рукописных архивов: коллекцию писем заключенных смоленской каторжной тюрьмы, собрания писем к исследователю Центральной Азии Григорию Николаевичу Потанину и поэту Василию Андреевичу Жуковскому, дневниковые записи мореплавателя Федора Петровича Литке, государственного деятеля Модеста Андреевича Корфа и драматурга Александра Васильевича Сухово-Кобылина. Дневниковые записи особенно хорошо подходят для создания на их основе таких информационных систем, поскольку отличаются единством почерка, хронологической упорядоченностью, постоянством условий письма (цвет бумаги, чернил, размеры букв и строк и т. д.), а также четко очерченным кругом действующих лиц, которые упоминаются на страницах дневников неоднократно и имеют свои сюжетные линии в биографии автора. С другой стороны, формализация знаний, извлеченных из дневников, может осложняться фрагментарностью записей, наличием сокращений, неразборчивостью почерка в тексте, изначально не предназначенном для публикации. Хотя предложенная схема создания информационных систем уже отработана на нескольких архивах, дневники драматурга А. В. Сухово-Кобылина (1817–1903) представляют особый интерес в силу некоторой загадочности личности автора и особенностей его биографии. Сами дневники при их внушительном объеме опубликованы лишь частично, причем опубликованная часть дневника расшифровывалась около 40 лет, и даже расшифрованные фрагменты изобилуют пропусками и неточностями. Если говорить о цифрах, мы использовали в системе 380 страниц дневников, на которых расположились более 10 тыс. строк текста, из которых около 5 тыс. имели опубликованную расшифровку.

Елена Пенская, филолог, руководитель центра цифровых архивных исследований НИУ ВШЭ

Елена Пенская, филолог, руководитель центра цифровых архивных исследований НИУ ВШЭ

Фото: НИУ ВШЭ

Елена Пенская, филолог, руководитель центра цифровых архивных исследований НИУ ВШЭ

Фото: НИУ ВШЭ

ЕП: Какие нейронные сети для распознавания и заполнения пропусков использовались?

НЛ: Текущие ожидания от систем, автоматически распознающих рукописный текст, в первую очередь связаны с использованием мультимодальных больших языковых моделей в режиме few-shot learning, когда адаптация к конкретной задаче (например, распознаванию почерка конкретного лица) происходит на основе лишь нескольких примеров в виде пар «изображение—распознанный текст». Тем не менее современные исследования показывают, что, хотя донастройка модели компьютерного зрения на конкретный почерк демонстрирует существенный прогресс уже при предъявлении пяти строк текста, при расширении объема обучающей выборки до нескольких сотен строк качество распознавания продолжает улучшаться, не демонстрируя насыщения. Поэтому обучение собственных моделей для распознавания рукописных текстов отдельно взятого автора по-прежнему выглядит обоснованным подходом. Для постраничной обработки рукописных текстов в рамках нашего проекта была разработана оригинальная архитектура нейросети YOLO-HTR (от You Only Look Once и Handwritten Text Recognition), которая одновременно решает задачи поиска строк текста на изображении и их расшифровке. Модели с этой архитектурой были обучены для распознавания почерков Литке, Корфа и Сухово-Кобылина и демонстрируют для первых двух архивов 3–5% ошибок в буквах, а для последнего — 10% ошибок в буквах и 28% ошибок в словах. Высокий на первый взгляд процент ошибок при распознавании архивов Сухово-Кобылина объясняется крайней неразборчивостью его почерка, который может сбить с толку неподготовленного человека. Достигнутое качество распознавания уже сейчас дает для многих страниц легко читаемый человеком текст, большинство ошибок в котором исправляются очевидным образом, что является огромным подспорьем для исследователя.

ЕП: И самое главное, как выглядит диалог эксперта с большими языковыми моделями? Как научиться формулировать запросы? Что ожидать на выходе?

НЛ: Современные большие языковые модели позволяют пользователю общаться с ними почти как с живым собеседником, формулируя вопросы на естественном языке. Даже столь простой формат диалога может быть необычайно полезен, например при формулировании исследовательских гипотез, конспектировании текста и разведочном информационном поиске. При этом входными данными может выступать и автоматически распознанный текст, содержащий множество ошибок, если нет высоких требований к детализации ответа. Откликом большой языковой модели при запросах произвольного вида будет последовательный, связный текст в свободной форме, что удобно для человеческого восприятия, но не годится для дальнейшей обработки компьютером. Чтобы использовать результат запроса в информационной системе, мы должны строго зафиксировать формат ответа — например, в виде списка записей с определенными полями. В нашем случае основой базы данных системы выступают списки сущностей, для каждой из которых указаны ее имя, тип (например, «персона» или «мероприятие»), общая характеристика исходя из содержания текста и список построчных упоминаний с указанием роли сущности в каждом из них. В самом запросе помимо постановки задачи и описания формата ответа рекомендуется дать краткое описание данных (чьи это дневники, в каких условиях получены, как отформатированы), показать примеры желаемых результатов, предоставить контекстную информацию: например, исследовательская литература об авторе дневника может содержать указатель имен, помогающий идентифицировать упоминаемых в тексте персон, даже если их имена распознаны с ошибками.

ЕП: С помощью каких языковых моделей выделять сущности? Что такое сущности? И что с ними можно делать исследователю?

НЛ: Выбор конкретной языковой модели остается на усмотрение пользователя и определяется скоростью и качеством работы, удобством и стабильностью доступа, допустимым объемом входных данных. Можно отметить, что почти все популярные на данный момент языковые модели (ChatGPT, DeepSeek, Gemini, Claude) достаточно успешно решают задачу создания файлов нужного формата и содержания и могут быть использованы для наполнения информационной системы. Хотя в задаче извлечения именованных сущностей, традиционной для обработки естественного языка, рассматриваются сущности определенных категорий, таких как «персона», «локация» и «организация», мы интерпретируем понятие сущности достаточно широко и можем считать сущностью все, что может быть локализовано в тексте с точностью до строки. Например, среди оригинальных типов сущностей, заинтересовавших нас при анализе дневников Сухово-Кобылина, были «состояние здоровья», «политическое событие» и даже «размышление». В первую очередь списки сущностей позволяют пользователю быстро находить все появления объекта в архиве, следить за временной динамикой упоминаний, выявлять систематические совместные упоминания сущностей. Это позволяет перейти к анализу социального круга, взаимодействий между сущностями, реконструировать поездки, конфликты и отношения. Мы будем развивать механизм запросов для обработки событий определенного типа: например, для поездки естественно определить поля «откуда», «куда», «пассажир», «спутник», «транспортное средство» и другие. Здесь многое зависит от пожеланий и устремлений коллег-филологов: именно их исследовательские интересы определят новые типы поддерживаемых запросов и приведут к расширению возможностей нашей информационной системы.

ЕП: Как вы видите на данном этапе перспективы работы? Возможно ли масштабирование вашей программы, которая для нас, гуманитариев, стала безусловным прорывом в решении безнадежных задач по работе с трудно распознаваемыми рукописями?

НЛ: Можно выделить два пути развития предложенных информационных систем — экстенсивный и интенсивный, которые, на мой взгляд, должны воплощаться параллельно. Экстенсивный путь связывается с наращиванием объемов данных, доступных для навигации, созданием аналогичных систем для других коллекций эго-документов, в первую очередь таких, для которых известна текстовая расшифровка. Интенсивный путь заключается в разработке более эффективных алгоритмов компьютерного зрения, позволяющих распознавать рукописный текст с меньшим числом ошибок и использовать для обучения меньшие объемы размеченных данных, а также в совершенствовании методов компьютерной обработки текста, в том числе способных работать с неточной автоматической расшифровкой, с целью более точного и полного выделения сущностей. Отмечу, что для надлежащей научной основательности подхода все модификации должны быть обоснованы четко поставленными экспериментами, в которых строго измеряются значения показателей качества. Но еще более важным является учет отзывов и предложений реальных пользователей, в первую очередь из академических кругов, связанных с гуманитарными исследованиями. Хотелось бы, чтобы вокруг подобных систем сложилось определенное сообщество и о них бы узнали как можно больше интересующихся биографией как Сухово-Кобылина (а их, как оказалось, можно встретить и среди организаторов технических конференций), так и других знаковых исторических личностей. Только когда число по-настоящему заинтересованных пользователей станет исчисляться сотнями, можно будет всерьез поставить вопрос о масштабировании. Надеюсь, эта публикация поможет привлечь внимание к нашим разработкам, и такой круг вовлеченных пользователей начнет формироваться.

Подготовлено в рамках проекта «Язык, литература и культура в историческом и социальном измерении» Программы фундаментальных исследований НИУ ВШЭ 2026.