Русская Википедия:СинТагРус

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Лингвистический корпус

СинТагРус (Шаблон:Lang-en, сокр. от Шаблон:Lang-en, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАНШаблон:Переход. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более Шаблон:Число миллионовШаблон:Переход.

СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XMLШаблон:Переход.

СинТагРус распространяется по некоммерческой лицензииШаблон:Переход. Кроме того, корпус был также преобразован в различные форматыШаблон:Переход; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.

История

Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.[1]

К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русских текстов) не были общедоступными[3].

По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].

Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].

Состав корпуса

Исходным материалом для СинТагРуса послужил Уппсальский корпус русских текстов: было взято около Шаблон:Число предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до Шаблон:Число предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)[2][11].

СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около Шаблон:Число тысяч предложений (более Шаблон:Число миллионов словоупотреблений)[12], взятых из текстов следующих жанров[13][8][14]:

Типы и формат разметки

Файл:SynTagRus sentence example.png
Разметка в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.»

Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом Шаблон:Не переведено 5, за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:

  1. Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
  2. Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.

Далее будут перечислены имеющиеся в корпусе типы разметки.

Разбиение текста на предложения и лексические элементы

Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].

Морфологическая разметка

Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].

Шаблон:Начало скрытого блока

Шаблон:Конец скрытого блока

Синтаксическая разметка

Файл:SynTagRus sentence example (graph).png
Графическое представление разметки в СинТагРусе на примере предложения «Сначала его поили чаем, непременно в присутствии пациентки.», созданное с помощью средств лингвистического процессора ЭТАП и иллюстрирующее древовидную структуру синтаксической разметки

Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[17]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].

Шаблон:Начало скрытого блока

Шаблон:Конец скрытого блока

Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[18].

Лексико-семантическая разметка

Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].

Лексико-функциональная разметка

В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].

Микросинтаксическая разметка

Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[19]. В качестве примера можно привести составной предлог в силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частица ли или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[20].

Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[19].

Анафорическая разметка

Для встреченного в тексте анафорического местоимения указывается его Шаблон:Не переведено 5, то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].

Обработка эллиптических конструкций

В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][21].

Использование корпуса

СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].

Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы Шаблон:Не переведено 5 и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы Шаблон:Не переведено 5[21], PTB[22] и SD[23]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат Шаблон:Не переведено 5 (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[21].

Доступ

СинТагРус бесплатно распространяется по некоммерческой лицензии[24]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах Шаблон:Не переведено 5 (лицензия CC BY-NC-SA 4.0)[21] и PTB (доступен только конвертер)[22].

Примечания

Шаблон:Примечания

Ссылки

Шаблон:Корпусная лингвистика

Шаблон:Хорошая статья