Люди, не очень внимательно следящие за развитием гуманитарных наук, часто по привычке представляют их себе как сферу чистой "игры ума", далекую от современных технологий и слабо затронутую точными и объективными методами исследований. Между тем, сегодняшнее положение дел в этой области совсем не соответствует подобным стереотипам (хотя надо сказать, что для теоретической лингвистики это вполне закономерный результат длительного развития, история которого насчитывает не менее полувека, а может быть, и больше). Однако обо всей теоретической лингвистике — равно как и о ее длительной истории — мы сейчас говорить не будем. Речь пойдет о современном и многообещающем направлении в развитии компьютерных методов изучения языка, которое принято называть корпусной лингвистикой. Ресурсы, создаваемые в рамках этого направления, — электронные корпуса языков, — доступны каждому человеку, в том числе и неспециалисту. При этом их роль крайне важна и для теоретической лингвистики, т.е. науки, изучающей общие свойства естественных языков, и для лингвистики прикладной, решающей задачи автоматической обработки текстов на естественных языках.
Поиск в корпусе
В корпусе становится легко искать слова с нужными исследователю признаками. Такой поиск нельзя осуществить ни с помощью обычного текстового редактора, ни в интернете (где в основном можно искать просто конкретные слова или сочетания слов, нужные обычному пользователю, но не языковые свойства слов, нужные лингвисту). Например, в размеченном корпусе можно найти все формы дательного падежа, прошедшего времени, несовершенного вида, все страдательные причастия — а также формы от определенных слов или классов слов (например, повелительное наклонение от глаголов движения и т.п.). Разумеется, возможен аналогичный поиск и по сочетаниям слов. Все эти запросы могут быть сделаны по всему корпусу или по определенной его части (например, в текстах определенного периода, определенной тематики, принадлежащих определенным авторам и т.п.). В хорошем корпусе любой такой поиск выполняется за доли секунды, даже если он ведется на массиве из сотен миллионов слов.
Что же такое корпус языка в современном понимании этого термина? В первом приближении корпус — это собрание текстов на данном языке в электронной форме, специальным образом обработанное. Обработка корпуса (на языке корпусной лингвистики она называется обычно "разметка" или "аннотация") предполагает внесение в корпус большого количества разнообразной информации как о самих текстах (автор, время и место создания, тематика, жанр и т.п.), так и о конструктивных элементах этих текстов (абзацах, предложениях, словах и т.п.). Важнейшим видом разметки является грамматическая разметка, приписывающая каждому слову его грамматическую характеристику ("грамматический разбор" слова): род, число и падеж существительным, вид, время, наклонение и залог глаголам (если речь идет о русском языке) и т.п. Разметка осуществляется автоматически (специальными программами) или полуавтоматически, с последующей коррекцией результатов работы программы человеком. "Ручная" разметка более трудоемка и, учитывая огромный объем современных корпусов, часто в сколько?нибудь значительных масштабах неосуществима; поэтому в современной корпусной лингвистике много внимания уделяется процедурам автоматизации разметки. Качество разметки прямо связано с возможностями поиска в корпусе (а это главное, для чего корпус используется), поэтому чем богаче и разнообразнее разметка, тем ценнее корпус — и тем дальше он отстоит от простой неразмеченной коллекции текстов, или "библиотеки", которых так много на просторах интернета. Это и понятно: "библиотеки" текстов предназначены для читателей — т.е. тех, кому интересно в первую очередь содержание текстов, а корпуса — для исследователей языка, т.е. тех, кому интересны в первую очередь лексические, грамматические и другие признаки слов и текстов.
Современные размеченные электронные корпуса — это очень мощный и гибкий инструмент, который позволяет задавать самые разнообразные вопросы об устройстве языка и мгновенно получать на них ответы в виде многих десятков или даже сотен предложений. По понятным причинам такого инструмента в распоряжении лингвистов раньше никогда не было; появление корпусов можно сравнить с изобретением микроскопа или телескопа в развитии естественных наук на рубеже XVI-XVII вв.
Интересно, однако, что возможности корпусов для исследования в лингвистике были поняты далеко не сразу: первые (сравнительно небольшие) корпуса появились еще в 1960?е годы, но долгое время считались "не интересными" теоретикам. В основном первые корпуса использовались для составления частотных словарей и несложных прикладных статистических исследований (например для подсчета частоты букв в текстах). Причин такой первоначальной недооценки корпусов было несколько: технические сложности обработки текстов в эпоху до возникновения персональных компьютеров и интернета, а также известная консервативность теоретической лингвистики середины XX в., считавшей главным в изучении языка интроспекцию носителя-лингвиста, выносящего суждения по поводу так называемой "грамматической правильности" языковых структур. При таком акценте на языковую интуицию квантитативные методы казались непродуктивными: вместо того чтобы задавать вопрос о том, встречается ли данное выражение в текстах на данном языке (и если да, то как часто), исследователь предпочитал задавать вопрос о том, кажется ли данное выражение приемлемым или "правильным" ему лично или — в крайнем случае — специально отобранной группе носителей языка. Исключения, как правило, делались только для изучения мертвых языков, где поневоле единственный доступный метод был корпусным, но это считалось скорее вынужденным недостатком этой области языкознания, чем ее преимуществом.
Корпуса славянских языков
Самым первым корпусом славянского языка был чешский — один из лучших в мире по многим параметрам. Задача создания чешского корпуса была поддержана правительством страны, был создан специальный Институт чешского корпуса. Маленькая Чехия считала создание корпуса приоритетной государственной задачей — и результаты такого подхода не замедлили сказаться: авторитет чешской школы корпусной лингвистики в мире общепризнан.
Вслед за чешским корпусом были созданы корпуса словенского и хорватского языков. Существенно позже, уже в начале XXI века, появляются корпуса таких языков, как словацкий и польский. История польского корпуса особенно любопытна: его позднее появление объясняется совсем не тем, что в Польше отсутствовали коллективы, занимающиеся корпусной лингвистикой, а скорее тем, что таких коллективов было несколько и они долго не могли договориться об объединении своих работ в общую структуру национального корпуса. Это произошло всего несколько лет назад. Еще позже появляется болгарский корпус. А корпуса таких языков, как македонский, украинский и белорусский, в настоящее время еще не созданы в полном объеме (или функционируют в экспериментальном режиме).
Недостатки такого "субъективного" подхода (фактически подменяющего исследование единственной лингвистической реальности — текстов — исследованием представления носителя-лингвиста о том, что лишь в принципе "может быть сказано") не раз критиковались; ориентация на тексты отличала, как правило, "функциональные" и "когнитивные" направления лингвистической теории от "формальных" (связанных с поздним структурализмом и хомскианством). Неудивительно поэтому, что возможности больших электронных корпусов оценили в первую очередь сторонники функциональной лингвистики, наиболее интенсивное развитие которой как раз пришлось на последнюю четверть XX века; впрочем, в настоящее время использование корпусов становится в целом общепринятой практикой и уже не отражает в явном виде теоретические пристрастия лингвиста.
Таким образом, в силу ряда обстоятельств, возможности корпусных методов изучения языка были осознаны лингвистами не сразу, и процесс этот продолжается до сих пор. Ведь дело не только в том, что с помощью корпуса можно очень быстро найти много примеров на интересующее исследователя явление (и примеры из корпуса в целом надежнее и убедительнее, чем искусственно придуманные лингвистом, пусть даже носителем языка): очень существенный аспект использования корпусов состоит в том, что с их помощью можно ставить и решать такие задачи, которые в докорпусную эпоху представлялись принципиально невыполнимыми. Таких задач имеется довольно много; не углубляясь в специальные детали, отметим один из важнейших их видов — задачи, связанные с исследованиями параметров исторического изменения языка в масштабах сравнительно небольших (по лингвистическим меркам) периодов: не более двух-трех столетий. Историческая лингвистика традиционно занималась так называемыми диахроническими исследованиями, касавшимися масштабных и длительных изменений языка: распада единой языковой общности на группы или семьи "родственных" языков; ее интересовало сравнение языковых состояний, отделенных друг от друга многими столетиями (например, древнерусский язык XI-XIV вв. мог изучаться в сравнении с современным русским языком и т.п.). Это касалось явных, хорошо наблюдаемых изменений языка: утраты и возникновения отдельных слов или грамматических форм, изменений звуковой системы и т.п. Однако язык изменяется непрерывно (фактически при каждой передаче от родителей к детям), и эта "микродиахрония", не менее важная для понимания природы языковых изменений и устройства языка в целом, может быть полноценно описана только с помощью корпуса: никаким другим способом нельзя зафиксировать небольшие, малозаметные, но постоянные изменения в значениях слов и грамматических форм, в частотности одних употреблений по сравнению с другими и т.п. Дело в том, что в докорпусную эпоху для таких наблюдений просто невозможно было вручную собрать материал — настолько трудоемкой оказывалась эта задача. Действительно, построив запрос к современному корпусу русского языка, можно за доли секунды убедиться, например, в том, что из двух синонимичных конструкций — в сравнении с и по сравнению с — первая возникает раньше второй, надежно фиксируясь приблизительно с середины XVIII в. и лидируя по употребительности весь XIX в.; к началу XX в. их частотность становится примерно одинаковой, а далее начинается стремительный рост употребительности второй конструкции, неуклонно вытесняющей первую. Подобных примеров можно привести очень много: это судьба огромного количества слов, форм, конструкций, грамматических показателей и т.п., которую корпус позволяет наглядно проследить. Нетрудно представить себе колоссальное значение таких данных как для теории языка (мы гораздо лучше будем представлять себе механизмы развития языка во времени, а в конечном счете и устройство языка как системы), так и для решения многих практических задач — начиная от более точного определения времени создания документа и заканчивая, например, выработкой оптимальных рекомендаций, касающихся правил практической орфографии (уже сейчас сотрудники орфографической комиссии РАН активно пользуются данными корпусов русского языка).
Национальный корпус русского языка
В настоящее время национальный корпус русского языка включает более 500 млн слов и содержит тексты XVIII-XXI веков самых разных типов и жанров, в том числе особый подкорпус поэтических текстов (не имеющий аналогов в мире), мультимедийный подкорпус (с видеозаписями текстов), подкорпус русских церковнославянских текстов, исторический подкорпус (с текстами древнерусского и среднерусского периода), а также семейство параллельных корпусов, где представлены специальным образом обработанные переводы с русского и на русский (в настоящее время в корпусе имеются параллельные модули для 11 языков, в том числе английского, немецкого, французского, итальянского, латышского, польского, украинского и белорусского). Следует отметить, что роль параллельных корпусов в контрастивных исследованиях языков очень велика и интерес к ним во всем мире постоянно растет; разработчики национального корпуса русского языка это учитывают.
"Корпусная эпоха" в развитии лингвистики только начинается — но, наверное, не будет преувеличением сказать, что это действительно новая эпоха. Корпус станет таким же необходимым элементом описания языка, как словарь и грамматика; более того, словарь, грамматика и корпус будут составлять единую систему, реализуя тот наиболее полный и строгий тип научного описания языка, который академик Ю.Д. Апресян в свое время назвал "интегральным".
Таким образом, насущная практическая задача для описания любого языка — это создание полного электронного корпуса такого языка, который включал бы максимально большое число максимально разнообразных текстов на данном языке (прозаических и поэтических, художественных и нехудожественных, письменных и устных и т.п.). Такой полный и представительный корпус обычно называют национальным корпусом языка (по образцу первого подобного корпуса — созданного в 1990?х годах Британского национального корпуса, названного так потому, что он был призван представлять британский национальный вариант английского языка); в дальнейшем прилагательное "национальный" в названии корпуса фактически стало терминологическим эквивалентом для слов "полный и представительный".
В настоящее время национальные корпуса существуют для большинства крупных языков Европы и Азии и для многих других менее значительных по статусу и количеству говорящих языков, хотя развитие в этой области идет не всегда равномерно. Наличие национального корпуса — признак известной технической и экономической "зрелости" государства, его способности решать достаточно сложные научно-организационные и технические задачи. Как уже было сказано, первые небольшие корпуса появились в США в 1960?х гг.; бум же создания национальных корпусов пришелся на 1990?е гг., когда появились такие корпуса, как британский, чешский, финский, японский и ряд других.
Создание корпусов на базе русского
В процессе создания корпуса русского языка было выработано множество технических и теоретических решений, позволяющих за сравнительно короткое время создать корпус произвольного языка. Одним из первых шагов в реализации этой задачи стал национальный корпус армянского языка (www.eanc.net), созданный в 2007 г. в Москве; корпус был высоко оценен специалистами во всем мире. Дальнейшие работы по созданию разнообразных корпусов стали возможны в рамках программы Президиума РАН "Корпусная лингвистика" (2011-2014 гг.), реализация которой позволила использовать богатый научно-организационный потенциал, накопленный в процессе создания национального корпуса русского языка. В ходе работ по этой программе уже были созданы корпуса таких языков, как осетинский, лезгинский, калмыцкий; базы данных по целому ряду малых и исчезающих языков России и некоторые другие ресурсы.
Отдельного рассказа заслуживает история создания национального корпуса русского языка, во многих отношениях драматичная и поучительная. Русский относится к крупнейшим мировым языкам, его роль и статус несопоставимы с "малыми" национальными языками. Попытки создания корпусов русского языка относятся уже к 1980?м годам, но все они по разным причинам были вначале не вполне удачными. С одной стороны, созданием электронного корпуса русского языка активно занимались европейские слависты (рано оценившие пользу корпусных технологий для исследования такого сложного языка, как русский), но их организационных и финансовых возможностей в то время оказалось недостаточно в связи с общим спадом интереса к славистике в Европе с середины 1990?х гг. Тем не менее созданный первоначально в Швеции, а затем перемещенный в Германию Упсальский (впоследствии Тюбингенский) корпус долгое время оставался единственным доступным русским корпусом, несмотря на его малый объем и ограниченные возможности поиска. С другой стороны, аналогом корпуса была масштабная идея Машинного фонда русского языка, выдвинутая академиком А.П. Ершовым еще в начале 1980-х гг. К сожалению, проект Машинного фонда, много обещавший вначале, "захлебнулся" к 1990-м годам, в основном по техническим и организационным причинам (сыграла свою роль и безвременная смерть А.П. Ершова в 1988 г.) — и это как раз в то время, когда в мире стало происходить интенсивное развитие корпусов на основе новейших технологий. Период 1990-х годов для российской корпусной лингвистики оказался по существу потерянным, и возникло опасное отставание от мировых достижений в этой области. Правда, в следующем десятилетии российским лингвистам удалось наверстать упущенное: национальный корпус русского языка (www.ruscorpora.ru), возникший в результате сотрудничества группы российских лингвистов и компании "Яндекс", был открыт для свободного доступа в 2004 г. и получил поддержку Российской академии наук (базовой организацией для развития корпуса является Институт русского языка им. В.В. Виноградова РАН). Создателям корпуса удалось не только учесть мировой опыт (к тому времени уже очень значительный) и избежать многих ошибок и несовершенств, присущих "старым" корпусам, но и предложить во многих отношениях уникальный ресурс: национальный корпус русского языка — один из немногих корпусов, созданный именно лингвистами и для лингвистов; исследования с его помощью может проводить любой, в том числе и технически слабо подготовленный пользователь. В отличие от большинства современных корпусов, создававшихся прежде всего программистами, специалистами по статистике речи, инженерами и т.п., национальный корпус русского языка имеет очень простой и "дружественный" интерфейс и снабжен целым рядом дополнительных возможностей, необходимым исследователям языка самых разных интересов и разной квалификации. Проект национального корпуса русского языка интенсивно развивается, и можно надеяться, что в ближайшие годы он станет еще более мощным и эффективным средством для изучения русского языка во всем его многообразии и богатстве — необходимым каждому специалисту и доступным не только лингвистам, но и преподавателям, учащимся, да и просто всем, интересующимся русским языком в его живом и подлинном виде.
Однако современная российская корпусная лингвистика на нынешнем этапе уже не ограничивается задачей создания только корпуса русского языка. На очереди — создание полноценных современных корпусов для других языков народов России и сопредельных стран. Технологическая база для решения этой задачи теперь уже есть.
Состав и структура национального корпуса русского языка
Глубоко аннотированный (синтаксический) корпус
Данный фрагмент Национального корпуса русского языка содержит тексты, снабженные морфо-синтаксической разметкой. Это значит, что помимо морфологической информации, приписанной каждому слову текста, для каждого предложения задана его синтаксическая структура.
Корпус параллельных текстов
Особым типом корпуса является так называемый параллельный корпус, в котором тексту на русском языке сопоставлен перевод этого текста на другой язык или, наоборот, тексту на иностранном языке сопоставлен его перевод на русский язык. Между единицами оригинального и переводного текста (обычно — между предложениями) с помощью специальной процедуры устанавливается соответствие; эта процедура называется выравниванием, а тексты, соответственно, выравненными.
Основной корпус текстов
Основной корпус — тексты, представляющие русский литературный язык, — можно подразделить на два главных массива, имеющих свои особенности: это современные письменные тексты (середина XX — начало XXI века) и ранние тексты (середина XVIII — середина XX века). По умолчанию поиск по этим массивам ведется одновременно, задать хронологический диапазон (и иные параметры) можно на странице установки пользовательского подкорпуса.
Корпус диалектных текстов
Корпус диалектных текстов (открылся в 2005 г.) включает записи диалектной речи в орфографии, приближенной к стандартной. Полностью сохранена морфологическая, синтаксическая и лексическая специфика. Имеются специальные пометы для диалектной морфологии (в том числе явлений, отсутствующих в литературном языке), кроме того, толкованиями снабжаются чисто диалектные лексемы.
Акцентологический корпус
Акцентологический корпус (корпус истории русского ударения) (открылся в 2008 г.) включает тексты, несущие информацию об истории русского ударения. Во-первых, это все тексты поэтического корпуса, где в силлабо-тонических, а отчасти и в чисто тонических, текстах содержится информация (требующая дополнительной интерпретации) о месте ударения в слове. Во-вторых, это акцентуированные (в соответствии с реально звучащим ударением) записи устной речи, в том числе кинофильмов. Эти тексты доступны для поиска по месту ударения и просодической структуре слова.
Газетный корпус (корпус современных СМИ)
Газетный корпус (корпус современных СМИ) открыт в 2010 г. и охватывает статьи из средств массовой информации 2000-х годов. Значительные объемы текстов СМИ, доступные в электронном виде и представляющие большой интерес для изучения языковых изменений "в режиме реального времени", не могут быть полностью включены в основной корпус, поскольку нарушили бы его репрезентативность, как тематическую, так и хронологическую. Для отдельного газетного корпуса такого ограничения нет; по объему он сопоставим с основным.
Корпус поэтических текстов
Корпус поэтических текстов (открылся в 2006 г.) включает стихотворные произведения от XVIII в. до современности. Помимо обычной семантической и морфологической разметки (как в корпусе с неснятой омонимией), предусмотрена специальная стиховедческая. Возможен поиск текстов, написанных амфибрахием, тоническими размерами, пятистишиями, вольной рифмовкой, твердыми формами и т.п.
Мультимедийный корпус
Мультимедийный русский корпус (открылся в декабре 2010 г.) включает фрагменты кинофильмов 1930-2000?х годов. Они представлены в виде параллельных видеоряда, аудиоряда и текстовой расшифровки звучащей речи, а также наблюдаемых в кадре жестов. В мультимедийном корпусе возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т.п.) и типу речевого действия (согласие, ирония и т.п.). В поисковой выдаче видеофрагменты доступны для просмотра и прослушивания.
Корпус устной речи
Корпус устной речи (как самостоятельный корпус существует с 2007 г.) включает в себя расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов. Использована русская стандартная орфография (при этом приводятся наиболее частотные и общепринятые стяженные формы). Возможен лексический, морфологический и семантический поиск, а также формирование пользовательских подкорпусов, в том числе и по социологическим параметрам. Включены тексты самых разных жанров и типов, разного происхождения с точки зрения географии (Москва, Санкт-Петербург, Саратов, Ульяновск, Таганрог, Екатеринбург, Норильск, Воронеж, Новосибирск и мн. др.). Хронологический охват корпуса 1900-2000?е гг.
Обучающий корпус русского языка
Обучающий корпус русского языка (открылся в 2007 г.) — небольшой корпус со снятой омонимией, ориентированный на преподавание русского языка в школе (отобраны произведения из школьной программы изучаемых в школьном курсе функциональных стилей, размечены словоизменительные типы и другие дополнительные морфологические признаки).