Работа с Национальным корпусом русского языка (НКРЯ)

Национальный корпус русского языка -- это большая коллекция текстов разных веков и жанров с морфологической разметкой и поисковым интерфейсом.

НКРЯ представляет русский язык в наиболее полном виде: во всём многообразии жанров, стилей, территориальных и социальных вариантов и содержит все типы письменных и устных текстов, представленных в русском языке. В Корпусе собраны художественные тексты разных жанров от Фонвизина до Улицкой, поэзия с конца 18 века, публицистика XX-XXI веков (особенно широко представлена публицистика последних 40 лет), научная литература всех направлений (точные, естественные и гуманитарные науки), официально-деловые тексты: заявления, служебные записки, инструкции, тексты бытовых жанров: мемуары, дневниковые записи, личная переписка, фрагменты интернет-чатов, записи устной разговорной речи, а также записи устной речи из фильмов, диалектные тексты и др. [studiorum]

Чтобы лучше оценить объемы и многообразие данных в НКРЯ, можно посмотреть статистику.

Тексты размечены по следующим параметрам:

А чтобы было проще в них ориентироваться, НКРЯ разбит на подкорпуса:

Исторический корпус содержит тексты на древнерусском языке, в синтаксическом корпусе помимо морфологических характеристик слов указаны их синтаксические связи в предложении, в поэтическом имеется особая разметка для строфики и рифмы, а параллельный корпус представляет собой собрание одинаковых текстов на каких-либо двух языках (русский и французский, русский и китайский, русский и бурятский и т.п.)

У НКРЯ есть собственный образовательный портал, на котором вы найдете мануал по работе с корпусом с пошаговыми инструкциями и скриншотами по разным видам поиска (слово, словосочетание, слово с определенными грамматическими характеристиками...) и созданию собственных подкорпусов (это нужно, чтобы ограничить набор текстов, в которых вы будете искать какое-то слово, по годам или по жанрам, например) .

Поисковая выдача выглядит вот так: списком даются тексты (они называются документами) и примеры с ключевым словом, найденные в них.

Также в скобках указано, снята омонимия или нет: если да, то у слова будет один грамматический разбор, выбранный разметчиком, а если нет, значит вы увидите несколько возможных разборов, сгенерированных машиной. Чтобы посмотреть грамматические характеристики слова, нужно просто нажать на него: во всплывающем окне будет указана его лемма (она же словарная форма), грамматический разбор и семантический класс.

Грамматический разбор состоит из нескольких элементов, которые называются граммемами, или грамматическими тегами и могут принимать разные значения: например, часть речи (существительное, глагол, прилагательное...), число (единственное, множественное), падеж (именительный, родительный...). Со списком обозначений граммем и их расшифровками можно ознакомиться на странице с описанием морфологической разметки. Синтаксическую разметку, в свою очередь, можно посмотреть вот тут, а семантическую -- тут.

Помимо стандартной выдачи можно посмотреть результаты в формате KWIC (Key Word In Context), в котором отображается правый и левый контекст ключевого слова. Все примеры выравниваются по ключевому слову, поэтому выдачу в таком формате очень удобно анализировать.

Небольшую выборку из результатов поиска можно скачать либо в стандартном формате XML (в котором, кстати, хранятся все тексты корпуса), либо в специальном XML, адаптированном под табличные процессоры Excel и Open Office. Панель скачивания результатов выдачи расположена в самом низу страницы.

Открыв такой файл, вы увидите результаты поиска в формате KWIC, разбитые по колонкам "левый контекст", "центральное слово", "пунктуация", "правый контекст", "источник текста". Если вы хотите поближе познакомиться с XML-разметкой, можно почитать вот этот мануал от Microsoft.

Кроме того, НКРЯ умеет смотреть статистику употребления слова по годам и строить по ней графики. Если навести курсор на график, можно увидеть значение ipm (items per million), или относительную частоту употребления за определенный год для данного слова. Частота ipm определяется как количество употреблений слова за год, поделенное на объем корпуса за этот год и умноженное на 1 миллион. Под графиком приведены таблицы с абсолютным количеством употреблений за определенный период времени. Перейти к графику можно либо по ссылке "Посмотреть статистику" на странице выдачи, либо вот здесь.

Чем меньше значение сглаживания, тем более ломаной будет линия на графике. Ниже приведены графики, построенные по одним и тем же данным со сглаживанием 0 и 20.

Семинар 6

Работа с Национальным корпусом русского языка (НКРЯ)

results matching ""

No results matching ""