В шестидесятые годы прошлого века велись жаркие споры, могут ли поэты и ученые понять друг друга — общество разделялось на «физиков» и «лириков». Границы постепенно стирались, и на стыке литературы и точных наук появилось математическое стиховедение. Сегодня это отдельное направление современной компьютерной науки.

Звучит необычно: неужели стихотворение можно изучать с помощью формул и компьютера? Однако в стихе, как правило, есть своя довольно четкая ритмическая структура: система чередования ударных и безударных слогов, пауз, словоразделов и так далее. Этот рисунок зачастую не менее важен, чем сами слова. Математическое стиховедение исходит из того, что ритм стихов можно измерять и изучать статистически.

Зачем это нужно? Чтобы глубже понять структуру произведения, раскрыть секреты создания поэтами выразительных ритмических узоров и ощутить, как ритм участвует в создании текста, формирует его восприятие и даже смысл.

От Андрея Белого до наших дней

История математического стиховедения идет с начала XX века. Владислав Ходасевич вспоминал, как летом 1908 года Андрей Белый позвонил ему и взволнованно прокричал в трубку:

«Если свободны, скорей приезжайте в город. Я сам приехал сегодня утром. Я сделал открытие! Ей-Богу, настоящее открытие, вроде Архимеда!»

Когда Ходасевич примчался, он увидел Белого за столом, заваленным бумагами. На листах были проставлены столбцы точек, соединенных линиями. «Вот вам четырехстопный ямб. Весь тут, как на ладони! — торжествующе объявил поэт.— Стихи одного размера разнятся ритмом. Ритм с метром не совпадает!»

В тот день Белый буквально нарисовал схему стихотворного ритма, показывающую, где в стихотворных строках пропущены метрические ударения. Он доказал, что даже если стихотворения написаны одним и тем же размером, например, классическим четырехстопным ямбом (излюбленным размером Пушкина), их ритмический рисунок может существенно различаться. Иначе говоря, метр — абстрактная «схема» стиха (количество слогов и более или менее строгое расположение мест, куда с достаточно высокой вероятностью должны попадать ударения), а ритм — живое наполнение этой схемы, реальные чередования ударных и безударных слогов в тексте.

Но вот вопрос: что первично и как формируется стих — от метра к ритму или наоборот? Разные исследователи отвечали по-разному.

Для Белого, очевидно, ритм был первичен. Он организовал в 1910 году при издательстве «Мусагет» специальный ритмический кружок, где молодые литераторы учились собирать статистику по рифме и ритму. Методы и подходы Белого далеко не всеми были приняты. В следующие десятилетия одни литературоведы критиковали его подсчеты, другие пытались их развивать и уточнять. Но сама идея измерять стихи прижилась. Позже гонения на формализм поставили данные разработки на паузу. Полвека спустя, в начале 1960-х, к ним неожиданно вернулись уже на новом уровне — с помощью продвинутых математических методов. Инициатором второго рождения точного стиховедения стал всемирно известный советский математик Андрей Колмогоров.

Мало кто ожидал, что академик, прославившийся фундаментальными трудами по теории вероятности, возьмется за изучение стиха. Однако Колмогоров увлекся этой работой всерьез. Он собрал междисциплинарный семинар — по сути, новую версию кружка Белого,— где вместе работали математики и филологи: Александр Прохоров, Наталья Светлова (Солженицына), молодой Михаил Гаспаров, будущий академик, и талантливая выпускница отделения математической лингвистики ЛГУ Марина Красноперова.

Под руководством Колмогорова группа энтузиастов исследовала ритмические структуры русского стиха методами точных наук, активно применялась статистика: подсчитывали, например, сколько ударений в среднем приходится на строку в «вольных» стихах Владимира Маяковского или как часто Пушкин отклоняется от строгой метрической схемы в поэме «Медный всадник».

Колмогоров фактически заложил основы математического стиховедения как полноценной научной дисциплины: разработал четкие определения метра и ритма, показал, как строить вероятностную модель ямба, как статистически изучать ритмику стиха и прозы. Его ученица Марина Красноперова продолжила работу — создала систему вероятностных моделей стиха, первой стала применять компьютерное моделирование для стихотворной речи. Уже в 1970-е годы она начала опыты обработки стихотворных текстов на ЭВМ.

Красноперова выдвинула оригинальную идею: с помощью математических и компьютерных моделей можно попытаться воссоздать процесс порождения стиха, понять, как разум ощущает и генерирует ритм. Ее теория «реконструктивного моделирования стихосложения» опередила время и проложила мост от статистики стиха к когнитивной компьютерной науке о стихотворной речи. В 1980–2000-е годы она продолжала исследовать ритмику стихотворной и прозаической речи, преподавала в Петербургском университете.

Автору этих строк посчастливилось быть ее учеником.

От расчетов на бумаге к анализу больших данных

Во времена Андрея Белого и даже Колмогорова исследователи стихового ритма вооружались в лучшем случае карандашом, листом бумаги и арифмометром. Подсчитать таким образом ритмический рисунок десятка стихотворений — уже большая работа. Даже академик Гаспаров все свои подсчеты делал вручную.

Сегодня же компьютеры позволяют анализировать тысячи и даже сотни тысяч строк буквально за секунды. Автоматизация изменила все: математическое стиховедение стало по-настоящему компьютерным. Теперь вместо того чтобы ограничиваться парой поэм, ученые могут изучать целые корпусы текстов — сборники из сотен и тысяч произведений, да еще и на разных языках. Вероятностные модели стиха стали намного точнее, а их расчеты заметно упростились.

Ритм — вещь тонкая: нужна большая выборка, чтобы уловить закономерности. Например, вручную трудно понять, отличается ли ритмика стихов Пушкина и Лермонтова — нужно разметить и проанализировать сотни и тысячи строк каждого из поэтов. Компьютер справится с такой задачей легко, подсчитав все варианты расстановки ударений, частоту пропусков, ритмические формы и так далее. Автоматизация расчетов и всего процесса анализа позволяет получить достаточно точную картину о характере ритмики стиха или прозы, быстро провести испытание той или иной гипотезы, найти количественное доказательство тому, о чем раньше можно было говорить только интуитивно.

Кроме того, компьютерные методы открыли дорогу к межъязыковому анализу на больших данных. Раньше компаративное стиховедение развивалось слабо, стиховеды работали в основном в пределах одного языка и одной литературной традиции. Теперь появились возможности легко сопоставлять, например, массивы текстов английского стиха с русским или немецким — точно и быстро с помощью компьютера. Такие исследования позволили ученым показать, что ритм — это действительно первичное понятие, он может предшествовать даже выбору слов (причем не только в стихе, но, вероятно, и в прозе). Иными словами, ритм способен опережать не только метр, но и язык.

Компьютерные алгоритмы могут легко и быстро приводить стихотворения на разных языках к общей ритмической или метрической модели, давая возможность выявлять типологические сходства и различия. Например, можно изучить, какие ритмические приемы характерны для всех европейских поэтов, а какие свойственны только русскому стиху. Такие исследования помогают отделить влияния языка и культуры от просодии. Позволяют понять, как формируется и развивается «музыка» стиха и как она влияет на нас.

Сегодня математическое / компьютерное стиховедение стало разделом прикладной лингвистики: оно изучает язык, когда тот облечен в строгую стихотворную форму, и противопоставляет его «свободному» потоку прозы. Оказывается, у многих поэтов «музыка стиха» действительно живет отдельной жизнью: ритм стихотворений заметно отличается от ритмики обычной речи. Это наводит на мысль о том, что поэт как будто переключается в особый «режим», когда сочиняет стихотворения,— его сознание работает по иным законам, нежели при порождении «неорганизованной», нестихотворной речи.

Цифровая платформа «Прозиметрон»

Развитие компьютерного стиховедения привело к необходимости создания единой цифровой платформы, которая получила название «Прозиметрон». Автору этих строк удалось собрать хорошую команду молодых исследователей, которые при поддержке Российского научного фонда на базе Школы филологических наук ФГН НИУ ВШЭ смогли начать разработку: платформа содержит большие корпусы просодически размеченных текстов стиха и прозы на разных языках и аппарат, который умеет тексты анализировать, сравнивать, строить различные модели стиха по вероятностным параметрам.

Система «Прозиметрон» позволяет отделять ритмический скелет от словесного «тела» произведения. Идея такого анализа состоит в том, чтобы дать исследователям инструмент, позволяющий взглянуть на стихотворение как бы в двух измерениях: с одной стороны, содержательная часть (сюжет, образы, лексика, смыслы), а с другой — чистая структура ритма. «Прозиметрон» в некоторых случаях автоматически распознает метрический и ритмический рисунок загруженного текста — отмечает, какие слоги ударные, а какие нет. Там, где это пока невозможно, исследователи вынуждены прибегать к ручной разметке текстов. После этого специальная программа подсчитывает все ритмические структуры в них, строит ритмический профиль: статистическую картину того, как в тексте распределяются ударения.

Эти данные можно хранить и сравнивать. Например, исследователь может попросить систему сравнить ритмику всех сонетов Шекспира с сонетами Пушкина — и «Прозиметрон» покажет, чем отличаются английские и русские тенденции в ритмике этих текстов. Или, скажем, можно сопоставить ритмы стиха Маяковского с его же прозаическими отрывками — система выявит различия. Благодаря обширной базе данных и вычислительной мощности такие задачи стали решаться нажатием нескольких клавиш. В будущем система должна моделировать стихотворную речь и проводить глубинный анализ процессов порождения текста на основе теории реконструктивного моделирования стихосложения.

Прямых аналогов «Прозиметрона» пока нет ни в России, ни за рубежом. Это не просто база литературных текстов, а настоящая лаборатория ритма, с помощью которой можно проверять смелые гипотезы. Например, одна из идей состоит в том, что поэт в процессе творчества сперва придумывает некие ритмические заготовки, а уже потом наполняет их словами. Проверить это трудно, но наша система позволяет получить непротиворечивые данные о том, что процесс создания ритмического облика стиха предшествует его вербальной реализации. Если собрать большие «коллекции» стихов на разных языках из разных эпох, можно, например, попытаться увидеть, переходят ли метрические и/или ритмические конструкции из одной литературной традиции в другую и зависит ли этот процесс от языковых условий. «Прозиметрон» довольно четко может показать, что в истории поэзии действительно имели место случаи такого заимствования ритма или метра: когда, к примеру, русские поэты XVIII века перенимали европейские образцы стихотворных размеров и даже заимствовали иностранные ритмические модели. Цифровая система способна зафиксировать подобные явления: отделив ритм от слов, она покажет, что, например, пятистопный ямб в английских и русских стихах имеет и сходства, и существенные отличия, обусловленные теми или иными особенностями языка и выработанными принципами реализации метра.

Кроме того, платформа открывает дорогу к исследованиям, которые прежде были чистой фантастикой. Можно изучать, как ритмические эффекты влияют на восприятие читателя: например, с помощью психологических экспериментов и данных «Прозиметрона» мы выясняем, почему равномерный размер навевает спокойствие, а сбивчивый ритм тревожит. Можно даже попытаться восстановить ритмику утраченных поэтических форм — древних стихов, от которых остались лишь фрагменты: статистический анализ похожих текстов помогает предположить, как могли звучать пропущенные строки. Все это становится возможным, когда в распоряжении исследователя есть мощная цифровая система, снимающая рутинную работу по обработке текстов и подсчетам.

«Прозиметрон» — яркий пример того, как гуманитарные науки вступают в цифровую эру. Казалось бы, поэзия — царство вдохновения и таланта — далека от больших данных, каких-либо алгоритмов и моделей. Однако история математического стиховедения показывает обратное: точные методы и литературное творчество могут плодотворно сотрудничать. Более того, без этого сотрудничества сегодня уже не обойтись. Ведь и сам Андрей Белый был прежде всего поэтом и лишь потом ученым, а новые поколения исследователей все увереннее стремятся говорить о поэзии на языке объективных показателей, не теряя при этом тонкости смыслового анализа. Фактически разработчики «Прозиметрона» продолжают то дело, которое сто с лишним лет назад начал Белый: переводят интуитивные догадки о ритме стиха на строгий язык чисел, делая этот подход массовым и доступным. Когда-то только лишь единицы энтузиастов вручную считали схемы ударений, а теперь это может сделать любой заинтересованный пользователь, вооруженный «Прозиметроном».

Евгений Казарцев, Школа филологических наук ФГН НИУ ВШЭ