Кто же автор «Сказки о царе Салтане»

Принадлежность текста можно установить по союзам, местоименным словам и частицам

Два способа — дюжинный и недюжинный — по скрепам распознать, какой текст написан не его автором, или О процедуре текстовой атрибуции с проверкой по полному и укороченному спискам частот употребления словечек, которые автор предпочитает.

Фото: В.В. Катухин. А. Свердлов / РИА Новости

Фото: В.В. Катухин. А. Свердлов / РИА Новости

эпиграф
...Есть правило, «излишняя строгость изложения ведет к интеллектуальным судорогам». Не помню, кто сказал…
(В. М. Афанасьев)

Вопрос о точных методах установления авторства начинает интересовать широкую аудиторию в основном в те моменты, когда начинается очередная волна споров об авторстве «Тихого Дона». Однако эта проблема интересна и вне зависимости от таких злободневных дискуссий. Уже около десяти лет — сначала в научно-исследовательском информационном центре Московского университета, а затем в Институте русского языка им. В. В. Виноградова РАН — пытаются выяснить, возможно ли выделить в тексте следы (слова, словечки или целые словосочетания), позволяющие установить, кто был реальным автором данного текста, и которые, следовательно, позволят выявить плагиат, если таковой имел место.

От «мелкой сволочи» к «скрепам»

Идеальным решением задачи в целом было бы установление универсальной суммы признаков, по которой всякий автор определялся бы однозначно: плюс, плюс, минус, минус, плюс…— ага, понятно, это Набоков, а вот это — Бунин, Горький, Мельников-Печерский и т. д. Но один автор предпочитает одно, другой — другое, а третий, как говорится, вообще — свиной хрящик. Приходится устанавливать все элементы, которые могут быть как-либо значимы при «опознании» автора. И таких элементов, или малых слов (в науке о языке их обычно относят к средствам сочинения или подчинения, гениальный Александр Пушкин когда-то их предлоги да наречья — окрестил «мелкой сволочью», ну а мы называем, отчасти в шутку, но все-таки на полном серьезе — скрепами (или текстовыми скрепами), не имея, естественно, в виду идеологических составляющих данного понятия) сейчас их в нашем списке значится около 900.

Полная проверка или частичная?

Сначала о недюжинной, то есть полной процедуре проверки сомнительного текста Х — по всем скрепам. Из текста извлекаются вхождения в него всех скреп и подсчитываются их частоты, после чего эти частоты сравниваются — со средними частотами у всех авторов, которые уже обсчитаны в нашей базе (таковых авторов, или идиостилей, более 70): у кого окажется наиболее сходная картина по частотам употребления большинства скреп, тот и становится наиболее вероятным претендентом на авторство. Если это титульный автор, то и хорошо, если же нет, то возникает повод задуматься: а был ли мальчик?

Ну, есть еще одна, упрощенная, или дюжинная процедура: она состоит в том, что берутся только 12 наиболее часто употребляемых в тексте Х (но также и у всех авторов в нашей базе) скреп, и эти дюжины сравниваются между собой. У кого совпадение наиболее богато, тот (идиостиль, или его «хозяин») и становится вероятным автором текста Х.

Результаты обеих процедур несколько расходятся между собой, что создает дополнительную интригу.

Концентрация признаков

Вообще, по насыщенности текста скрепами (или же по их концентрации) самый «скрепоносный» писатель в русской литературе — Федор Достоевский (что неудивительно), по крайней мере в сравнении с остальными более чем семью десятками авторов XIX–XX веков, чьи тексты нами обсчитаны. Вот пример вполне ординарного для его текста нагромождения скреп разного рода, из романа «Подросток», 1875 год. Кстати, это и есть самый достоевский текст, то есть наиболее похожий на его идиостиль, по нашим подсчетам (в примере ниже каждая из скреп выделена подчеркиванием):

При имении находилась тогда тетушка; то есть она мне не тетушка, а сама помещица; но, не знаю почему, все всю жизнь ее звали тетушкой, не только моей, но и вообще, равно как и в семействе Версиловакоторому она чуть ли и в самом деле не сродни. 

Всего в одном предложении — целая чертова дюжина скреп (не считая повторяющихся): а именно союзы ТОГДА, ТО ЕСТЬ и НО; союзное слово ПОЧЕМУ и вводное ВООБЩЕ; противительные конструкции НЕ (…), А и НЕ ТОЛЬКО (…), НО; сравнительный оборот РАВНО КАК И; местоимение ВЕСЬ и вопросительное местоимение (или относительное слово) КОТОРЫЙ; отрицание НЕ; частицы И ЧУТЬ ЛИ (…) НЕ.

Ну а на другом конце этой же шкалы следует поместить, по нашим подсчетам, отличающегося минимальным использованием в тексте скреп таинственного автора той примерно половины всего романа «Тихий Дон», которая была опубликована в 1928–1929 годах под именем М. Шолохова (считая от начала и до середины 6-й части романа: далее сокращенно: ТД1).

О слове ВДРУГ в связи с «катастрофичностью» почти всех событий, происходящих в романах Достоевского, говорили очень многие и очень давно (Виктор Шкловский, Абрам Белкин, Виктор Топоров и др.) — эта скрепа у писателя на приоритетном, хотя и последнем в дюжине, двенадцатом месте из его скреп: эта частота почти троекратно превосходит средний уровень по Корпусу — на 288%. А вот в «Тихом Доне» она же — только на 90-м месте, и ее частота там составляет менее 38% от среднего показателя (заметим из занудства, что при определении частоты скрепы ВДРУГ мы не учитывали ее вхождения в составе скрепы КАК ВДРУГ, частота которой вычислялась отдельно).

При сравнении по наиболее частотным дюжинам скреп у Достоевского и у автора ТД1 мы видим, что у последнего больше частота лишь одного-единственного изъяснительного союза , КАК (после запятой), тогда как по употреблению всех остальных он значительно уступает Достоевскому: вот и в употреблении другого изъяснительного союза , ЧТО (тоже после запятой) — также почти в 3 раза, по ЭТОТ, УЖЕ и ВЕСЬ — в 2,5 раза, по предлогу О, частице ДАЖЕ — не менее чем в 2 раза и т. п. Вот как в таблице 1 (зеленым в ней помечены скрепы, употребляющиеся чаще среднего, синим — реже, а серым — на среднем уровне; F — это пометка неизменяемой скрепы, а V — изменяющейся по родам, числам или падежам).

Наиболее вероятным автором текста для нас выглядит тот из имеющихся в базе, средние частоты скреп в текстах которого отклоняются (в сумме) от частот тех же скреп в тексте Х на наименьшую величину. Как правило, этим-то автором и оказывается титульный. Если так, то сам текст мы считаем уравновешенным, а если нет, то неуравновешенным.

Большинство текстов Достоевского (18 из 19) уравновешенны, но есть и неуравновешенный — «Неточка Незванова». (Есть правда, еще недо-уравновешенные «Бедные люди», но что такое недо-уравновешенные, объяснять нет времени: читатель может поразмыслить над этим сам, как и над значением понятий Разрыв и Отрыв.) В таблице 2 приведены результаты обсчетов двух текстов Достоевского, не вписывающихся в его идиостиль.

Общепризнано, что при написании первой своей повести «Бедные люди» Достоевский если не просто копировал, то был существенно ориентирован на стилистику Николая Гоголя, а вот повесть «Неточка Незванова» (сокращенно НН) — ранняя, так и не законченная автором вещь, тем не менее опубликованная им в таком виде (во время печатания ее 3-й части Достоевский находился уже под арестом по делу Петрашевского) — она выбивается более всего из собственного идиостиля писателя, причем здесь, по нашим подсчетам, идиостили у целых шести (!) авторов демонстрируют меньшие отклонения, чем суммарные отклонения частот идиостиля самого Достоевского, то есть достаточно сильно опережают его в качестве предполагаемых авторов — Авдотья Панаева, Николай Помяловский, Иван Тургенев, Гоголь, Лев Толстой и Всеволод Гаршин.

«Бедные люди», «Неточка Незванова» и ближайшие идиостили

ТекстПервый претендентВторой претендентТретий претендентЧетвертый претендентПятый претендентШестой претендентСедьмой претендент
«Неточка Незванова»ИмяПанаеваПомяловскийТургеневГогольЛев ТолстойГаршинДостоевский
Отклонение83,0087,1087,7387,7888,6688,9490,42
Отрыв (?)?=4,1?=0,6?=0,1?=0,9?=0,3?=0,6
Разрыв (??)??=6,6
«Бедные люди»ИмяДостоевскийГогольСалтыков-ЩедринГончаровПомяловскийТургеневГаршин
Отклонение104,19107,38108,78110,49114,06115,73117,75
Отрыв (?)?=3,2?=1,4?=1,5?=3,9?=1,7?=2,0
Разрыв (??)??=3,2

Творчество Гоголя и Станицкого (псевдоним Авдотьи Панаевой), очевидно, во время написания НН было Достоевскому как-то знакомо, а у Тургенева еще в 1846 году были опубликованы повести «Бретер» и «Три портрета» (Достоевский мог быть знаком и с ними); но вот Лев Толстой, Помяловский и Гаршин еще не вступили тогда на поприще писательства. Однако примечательно, что именно эти три тогдашние современника Достоевского, а не какие-нибудь уже более поздние, скажем, Максим Горький, Александр Фадеев и Владимир Набоков, оказались почему-то в непосредственной близости по отклонениям к тексту самой НН.

Подобные же «неуравновешенности» мы наблюдаем и у других авторов, например, у Тургенева в повести «Фауст», у Льва Толстого — в «Казаках» (да кстати, и в «Севастопольских рассказах»: если в первом случае на опасно близкое расстояние к титульному автору подходит Александр Серафимович, то во втором — Фадеев), в бунинской «Деревне» (к которой наиболее близок оказывается идиостиль Федора Крюкова), в романах Гайто Газданова «Вечер у Клэр» и «История одного путешествия» (в обоих случаях ближайшим «конкурентом» оказывается Александр Куприн), а также сразу в трех романах Сергея Сергеева-Ценского («Бабаев», «Движения», «Жестокость»: во всех наиболее удачливый конкурент титульного автора и наиболее вероятный автор — Фадеев), в романе Горького «Мать» (тут ближайший — снова Крюков) и др.

Наиболее частотные скрепы в идиостилях Достоевского и автора ТД1

Автор1-я скрепа2-я скрепа3-я скрепа4-я скрепа5-я скрепа
Федор ДостоевскийСловоИ (F)ЭТОТ (V)ВЕСЬ (V), ЧТО (F)ТОТ (V)
Частота, % к среднему101122143150124
ТД1СловоИ (F)ЭТОТ (V)ВЕСЬ (V) , КАК (F), И (V)
Частота, % к среднему804955120124

Кто на кого похож?

Когда же применяется упрощенная — мы назвали ее дюжинной — процедура, то сравниваются между собой два идиостиля (или идиостиль сомнительного текста Х с идиостилем претендующего на его авторство конкурента). Нам важно:

а) общее число совпавших по названию скреп и

б) число из них совпавших скреп по частотам в определенных пределах: избыточным употреблением мы считаем все частоты, превышающие у обоих 110%; наоборот, убыточным, или дефицитным — все, что меньше 90%, а к нейтральному, или ординарному уровню относим частоты, попадающие в промежуток между 90% и 110%.

Вот, например, писатель Серафимович очень любил пользоваться местоименным прилагательным ВЕСЬ (во всех его формах), употребляя его почти в полтора раза чаще нормы, то есть чаще, чем оно используется всеми авторами в среднем, по Корпусу, а также любил и такие «повествовательные» союзы, как , И , КАК (оба после запятой), и первым из них злоупотреблял несколько сильнее (173%), нежели местоимением ВЕСЬ (143%). Зато указательное местоимение ЭТОТ и союз , ЧТО (после запятой) как будто откровенно недолюбливал (последний употреблял более чем вдвое реже нормы — всего лишь на 48%). Но именно таким использованием союзов , ЧТО и , КАК а также местоимения ЭТОТ он совпадает с идиостилем автора ТД1: у последнего частоты соответственно 58%, 120% и 73%. Впрочем по ВЕСЬ — еще и того меньше (55%), а по , И (после запятой) — 90%: то есть в двух последних случаях их идиостили между собой все-таки не совпадают — расходятся.

Значительно больше совпадений, чем у Серафимовича, оказывается у другого претендента на авторство в ТД1 — Виктора Севского: его показатели совпадений частот с идиостилем ТД1 выше, чем у Серафимовича, но и они уступают шолоховским. Больше же всего совпадений — что бы там ни писали отдельные отечественные или зарубежные («непатриотически настроенные») недоброжелатели,— именно у самого Шолохова: вот и голый союз И (без запятой) употребляется им с недостатком (86% — практически так же, как и в ТД1, где 80%), и местоимения ЭТОТ (73% и 49% соответственно) и ВЕСЬ (81% и 55%), и изъяснительные союзы , ЧТО (58% и 49%) и , КАК (последний у обоих как раз в избытке — ровно по 120% у каждого). Только союз , И Шолохов употреблял все-таки избыточно (111%), а в ТД1 он в некотором дефиците — 90%.

Еще один претендент, Крюков, приближается к титульному автору своими показателями, но и он также несколько уступает титульному автору: так, скрепы ЭТОТ; ТОТ; ВЕСЬ; , И , ЧТО у него так же, как и в ТД1, употребляются совсем не часто, находясь в дефиците, однако голый союз И (он в ТД1 также в дефиците — всего 80%) этот автор как раз очень даже любит, употребляя его чаще среднего (117%), в отличие от союза , КАК, который, как мы уже отметили, у автора ТД1 в избытке (120%), а вот у Крюкова употребляется реже нормы (91%)…

От прозы к поэзии

Поэтические тексты составляют в нашей базе не более 4%. Сейчас мы активно пополняем корпус поэтическими произведениями, что позволит, например, аргументированно оценить, что общего имеет «Конек-Горбунок» Петра Ершова и «Сказка о царе Салтане» Пушкина. Такая работа позволила бы проверить гипотезу, будто «Конек-Горбунок» — это приписанная Ершову пушкинская мистификация. Проверка на ограниченном материале не просто опровергает эту гипотезу, но еще и дает основания считать — в чем даже несколько стыдно признаваться,— что еще и «Сказку о царе Салтане», и «Сказку о попе и работнике его Балде» написал все тот же Ершов.

То есть Ершов как автор «Сказки о царе Салтане…» получает (8: 7–0…1–0, то есть 7 из 8) = 88%, а Пушкин — только (5: 3–0…1–1 3 из 5) = 60%, как, кстати, и в «Сказке о попе и работнике его Балде»: у Ершова (7: 3–1…1–2) = 57%, тогда как у Пушкина (6: 3–0…3–0) = 50%. Но можно это считать просто временными недоработками нашей системы.

Удивительно, что в «Стихотворениях» Ершова почти все скрепы первой дюжины, за исключением только двух,— как бы на пределе, с превышением частоты: так же и в «Коньке-Горбунке» — и тоже кроме двух: одного местоимения ЭТОТ (та же скрепа, что с минусом и в «Стихотворениях») и еще голого союза И, который в «Стихотворениях» на максимуме, но в «Коньке» — с нейтральной частотой. Практически то же видим и в «Евгении Онегине», но к неиспользованию скрепы ЭТОТ добавляется еще и предлог О, а вот голый союз И — не с повышенной частотой, а только на среднем, нейтральном уровне…

Пушкин или Ершов?

Автор1-я скрепа2-я скрепа3-я скрепа
Пушкин (весь) СловоИ (F)ВЕСЬ (V)О (F)
Частота, % к среднему11383163
Пушкин, «История Пугачёва»Слово И (F)ВЕСЬ (V)О (F)
Частота, % к среднему12977123
Пушкин, «Руслан и Людмила»СловоИ (F)ВЕСЬ (V)ТОТ (V)
Частота, % к среднему13273107
Пушкин, «Евгений Онегин»СловоИ (F)ВЕСЬ (V)КАК (F)
Частота, % к среднему115100179
Пушкин, «Сказка о попе и работнике его Балде»СловоИ (F)ВОТ (F)ТАКОЙ (V)
Частота, % к среднему52521431
Пушкин, «Сказка о царе Салтане»СловоИ (F)ВЕСЬ (V)ВОТ (F)
Частота, % к среднему119176427
Ершов, «Конек-Горбунок»СловоИ (F)ВЕСЬ (V)ТУТ (F)
Частота, % к среднему103138996
Ершов (весь) СловоИ (F)ВЕСЬ (V)ТОТ (V)
Частота, % к среднему106120151
Ершов, «Стихотворения» СловоИ (F)ВЕСЬ (V)ТОТ (V)
Частота, % к среднему121115131

* * *
[эпилог, или даже эпитафия:]
«В случае с полуграмотным чекистом Шолоховым, ничего никогда самостоятельно не писавшим, вы делите ноль на ноль. Поэтому измеряется не идиостиль ШМА, а, простите великодушно, глубина идиотизма псевдонаучных построений».
А. Ю. Чернов, 28 сен. 2022

Михаил Михеев, доктор филологических наук, ведущий научный сотрудник отдела корпусной лингвистики и лингвистической поэтики Института Русского языка им. Виноградова; Лев Эрлих, программист, свободный исследователь

Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...
Загрузка новости...