Русская Википедия:СинТагРус
СинТагРус (Шаблон:Lang-en, сокр. от Шаблон:Lang-en, «синтаксически аннотированный корпус русских текстов») — глубоко аннотированный корпус текстов русского языка, первый корпус русских текстов с синтаксической разметкой. Разрабатывается с 1998 года Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАНШаблон:Переход. Корпус состоит из текстов различных жанров; общее количество словоупотреблений составляет более Шаблон:Число миллионовШаблон:Переход.
СинТагРус основан на идеологии многоцелевого лингвистического процессора ЭТАП. Особенностью корпуса является наличие нескольких уровней аннотации разной глубины, включая полную морфологическую и синтаксическую разметку со снятой омонимией. Языком разметки является XMLШаблон:Переход.
СинТагРус распространяется по некоммерческой лицензииШаблон:Переход. Кроме того, корпус был также преобразован в различные форматыШаблон:Переход; некоторые из этих версий (или конвертеров) находятся в открытом доступе, а ограниченная версия оригинального корпуса входит в состав Национального корпуса русского языка.
История
Результатом появления в начале 1990-х годов корпусов с синтаксической разметкой стало развитие эмпирических методов в задачах обработки естественного языка. Причём использование таких корпусов нашло своё применение не только в контексте собственно синтаксического анализа, но и в ряде других задач, среди которых разрешение лексической многозначности, семантический анализ и др.[1]
К концу 1990-х годов для большинства основных европейских языков были созданы аннотированные корпусы, тогда как для русского языка таких корпусов фактически не существовало[2]. Более того, даже существовавшие на тот момент неразмеченные корпусы (например, Уппсальский корпус русских текстов) не были общедоступными[3].
По этим причинам с 1998 года[4] началась разработка первого аннотированного корпуса русского языка СинТагРус[2][5], ставшего впоследствии эталоном среди корпусов с синтаксической разметкой[6]. При этом разработчики принимали участие и в создании Национального корпуса русского языка; в частности, СинТагРус (с некоторыми ограничениями) является составной, но полностью автономной частью НКРЯ с момента создания последнего[7][8]. В НКРЯ для СинТагРуса (как подкорпуса) используется также название «глубоко аннотированный корпус»[9].
Разработка СинТагРуса осуществляется Лабораторией компьютерной лингвистики ИППИ РАН в сотрудничестве с Сектором теоретической семантики ИРЯ РАН[10].
Состав корпуса
Исходным материалом для СинТагРуса послужил Уппсальский корпус русских текстов: было взято около Шаблон:Число предложений из текстов художественных произведений. Впоследствии в корпус были добавлены короткие (до Шаблон:Число предложений) тексты, взятые с сайтов популярных новостных изданий (yandex.ru, rbc.ru, polit.ru, lenta.ru, strana.ru, news.ru)[2][11].
СинТагРус постоянно развивается и по состоянию на 2023 год насчитывает около Шаблон:Число тысяч предложений (более Шаблон:Число миллионов словоупотреблений)[12], взятых из текстов следующих жанров[13][8][14]:
- художественная проза XX века;
- современная научно-популярная литература;
- публицистика;
- биографии;
- газетные и журнальные статьи, опубликованные в период с 1960 года по настоящее время;
- новостные ленты (тексты общественно-политического, культурного, экономического и научно-технического характера).
Типы и формат разметки
Отличительной особенностью СинТагРуса по сравнению с другими аннотированными корпусами русского языка является наличие нескольких уровней аннотации разной глубины, которые могут извлекаться из корпуса независимо, причём количество этих уровней потенциально не ограничено. Языком разметки корпуса является XML, а формат разметки совместим с формализмом Шаблон:Не переведено 5, за исключением некоторых дополнительно введённых элементов и атрибутов[2]. В основном разметка произвольного текста осуществляется в два шага[11]:
- Предварительная разметка текста в автоматическом режиме средствами лингвистического процессора ЭТАП, являющегося практической реализацией модели «Смысл — Текст».
- Проверка и, в случае необходимости, корректирование разметки экспертом-лингвистом.
Далее будут перечислены имеющиеся в корпусе типы разметки.
Разбиение текста на предложения и лексические элементы
Каждый текст в СинТагРусе разбит на предложения. Каждое предложение является элементом с именем S, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер предложения в тексте. Аналогично каждое предложение разбито на лексические элементы с именем W, и у каждого такого элемента есть атрибут ID, значением которого является порядковый номер слова в данном предложении[11]. Знаки препинания оформляются в виде текста тега предложения (с сохранением их относительного расположения в исходном тексте) и не выражаются собственными тегами[15].
Морфологическая разметка
Морфологическая структура словоформы представляет собой имя лексемы, или лемму, которой приписывается часть речи и морфологические характеристики, то есть значения соответствующих морфологических категорий. Для соответствующей словоформы лемма является значением атрибута LEMMA, а часть речи и морфологические характеристики совместно являются значением атрибута FEAT[8][16].
Часть речи | Сокращение | Примеры |
---|---|---|
Существительное | S | завод, я |
Прилагательное | A | новый, мой |
Глагол | V | одеваться |
Наречие | ADV | плохо, отчасти |
Числительное | NUM | пять, 2 |
Предлог | PR | под |
Композит | COM | авиа, гидро |
Союз | CONJ | и |
Частица | PART | всё-таки |
Междометие | INTJ | то-то |
Слово — иноязычное вкрапление | NID | Whatsapp, Берлинер Цайтунг |
Морфологическая характеристика | Сокращение | Примечание |
---|---|---|
Одушевлённость | ||
Одушевлённое | ОД | |
Неодушевлённое | НЕОД | |
Род | ||
Мужской | МУЖ | |
Женский | ЖЕН | |
Средний | СРЕД | |
Число | ||
Единственное | ЕД | |
Множественное | МН | |
Падеж | ||
Именительный | ИМ | |
Родительный | РОД | |
Партитивный | ПАРТ | Указывается только для существительных, у которых эта форма графически отличается от формы родительного падежа |
Дательный | ДАТ | |
Винительный | ВИН | |
Творительный | ТВОР | |
Предложный | ПР | |
Местный | МЕСТН | Указывается только для существительных, у которых эта форма графически отличается от формы предложного падежа |
Звательный | ЗВ | Указывается только для существительных, у которых эта форма графически отличается от формы именительного падежа |
Степень сравнения | ||
Сравнительная | СРАВ | |
Превосходная | ПРЕВ | |
Краткость | ||
Краткое | КР | |
Репрезентация | ||
Инфинитив | ИНФ | |
Причастие | ПРИЧ | |
Деепричастие | ДЕЕПР | |
Наклонение | ||
Изъявительное | ИЗЪЯВ | |
Повелительное | ПОВ | |
Вид | ||
Несовершенный | НЕСОВ | |
Совершенный | СОВ | |
Время | ||
Непрошедшее | НЕПРОШ | |
Прошедшее | ПРОШ | |
Настоящее | НАСТ | Приписывается только глаголу быть в личной форме |
Лицо | ||
Первое | 1-Л | Приписывается только глаголам |
Второе | 2-Л | |
Третье | 3-Л | |
Залог | ||
Страдательный | СТРАД | |
Дополнительные характеристики | ||
Словосложение | СЛ | |
Смягчённая сравнительная степень | СМЯГ |
Синтаксическая разметка
Синтаксическая разметка предложений корпуса осуществляется в рамках грамматики зависимостей: синтаксической структурой является ориентированное дерево, узлами которого являются слова, а каждое ребро направлено от слова-хозяина к слову-слуге и соответствует некоторому синтаксическому отношению. Слово, соответствующее корню дерева, называется вершиной предложения и, в отличие от остальных слов предложения, синтаксически не зависит ни от какого другого. Синтаксические группы оформляются в виде поддеревьев исходного дерева: в каждом таком поддереве один из членов группы является её представителем во внешних связях и подчиняет остальные члены группы[17]. Всего в СинТагРусе различается около 70 типов синтаксических отношений[13].
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Предикативное | предик | Сказуемое | Подлежащее |
Дательно-субъектное | дат-субъект | Слово, обозначающее состояние | субъект состояния, обозначаемого словом-хозяином |
Агентивное | агент | Слово, обозначающее действие | Субъект действия, обозначаемого словом-хозяином |
Квазиагентивное | квазиагент | Предикатное существительное | Слово, реализующее первую синтаксическую валентность слова-хозяина |
Несобственно-агентивное | несобст-агент | Глагол | Слово, реализующее первую семантическую валентность существительного, являющегося семантическим актантом слова-хозяина |
Первое комплетивное | 1-компл | Предикатное слово | Синтаксический актант слова-хозяина, за исключением первого. Так, первое комплетивное отношение относится ко второму актанту, второе — к третьему и т. д. |
Второе комплетивное | 2-компл | ||
Третье комплетивное | 3-компл | ||
Четвертое комплетивное | 4-компл | ||
Пятое комплетивное | 5-компл | ||
Присвязочное | присвяз | Глагол-связка | Именная часть сказуемого |
Первое несобственно-комплетивное | 1-несобст-компл | Функциональный глагол | Дополнение (первое, второе и т. д.), семантическим хозяином которого является некоторый семантический актант слова-хозяина |
Второе несобственно-комплетивное | 2-несобст-компл | ||
Третье несобственно-комплетивное | 3-несобст-компл | ||
Четвертое несобственно-комплетивное | 4-несобст-компл | ||
Пятое несобственно-комплетивное | 5-несобст-компл | ||
Неактантно-комплетивное | неакт-компл | Предикатное слово | Слово, не являющееся полноценным семантическим актантом слова-хозяина, но по синтаксической функции близкое к дополнению |
Комплетивно-аппозитивное | компл-аппоз | Параметрическое существительное или существительное типа рейс, маршрут, поезд | Семантический актант слова-хозяина, если этот актант выражается именительным падежом или его синтаксическим эквивалентом |
Предложное | предл | Предлог | Вершина именной группы, зависящая от предлога |
Подчинительно-союзное | подч-союзн | Подчинительный союз | Вершина придаточного предложения, вводимого починительным союзом |
Инфинитивно-союзное | инф-союзн | Подчинительный союз | Инфинитив |
Сравнительное | сравнит | Прилагательное или наречие в сравнительной степени | Вершина именной группы в родительном падеже, представляющая второй из сравниваемых членов, либо сравнительный союз чем |
Глагол, имя или наречие | Сравнительный союз | ||
Сравнительно-союзное | сравн-союзн | Сравнительный союз | Второй из сравниваемых членов сравнительной конструкции |
Элективное | электив | Числительное, порядковое прилагательное, прилагательное в превосходной степени или прилагательное со словом самый | Предлог из или среди, вводящий указание на множество, в котором производится выбор |
Сентенциально-предикативное | сент-предик | Вершина предложения, выражающего ситуацию, описываемую в идентифицирующей конструкции | Указательное местоименное существительное это или то в именительном падеже |
Адресатно-присвязочное | адр-присв | Слово-отношение, выступающее в качестве именной части сказуемого при (возможно, нулевой) связке | Существительное в дательном падеже, заполняющее, по существу, синтаксическую валентность слова-хозяина |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Определительные | |||
Определительное | опред | Существительное или Прилагательное | Прилагательное или причастие |
Описательно-определительное | оп-опред | Существительное или прилагательное | Прилагательное или причастие, выступающее в качестве обособленного определения |
Аппроксимативно-порядковое | аппрокс-порядк | Существительное | Порядковое прилагательное |
Релятивное | релят | Существительное или прилагательное | Вершина придаточного определительного |
Общеатрибутивные | |||
Атрибутивное | атриб | Существительное или прилагательное | Несогласованное определение |
Композитное | композ | Вторая часть сложного слова | Первая часть сложного слова |
Аппозитивные | |||
Аппозитивное | аппоз | Существительное | Следующее за ним приложение |
Обособленно-аппозитивное | об-аппоз | Существительное | Обособленное приложение к слову-хозяину |
Номинативно-аппозитивное | ном-аппоз | Существительное | Вершина любой группы в кавычках, выражающей название |
Нумеративно-аппозитивное | нум-аппоз | Существительное, обозначающее регулярно нумерующиеся объекты | Имя числительное в именительном падеже либо записанное цифрами (обозначающее номер) |
Количественные | |||
Количественное | количест | Существительное | Числительное, стоящее в препозиции |
Аппроксимативно-количественное | аппрокс-колич | Существительное | Числительное, стоящее в постпозиции |
Количественное-копредикативное | колич-копред | Глагол, при котором стоит существительное в родительном падеже, выступающее при нём в качестве подлежащего | Вершина группы числительного или вершина именной группы с количественным значением |
Количественно-ограничительное | колич-огран | Прилагательное или наречие в сравнительной степени | Наречие или вершина группы с предлогами в или на, указывающая на интенсивность |
Распределительное | распред | Вершина именной группы, обозначающая некий параметр (цену, скорость, вес и т. п.) | Существительное в именительном падеже или вершина группы с предлогами в, на, за, указывающая на единицу измерения |
Аддитивное | аддит | Числительное или вершина количественной группы | Числительное или вершина количественной группы |
Обстоятельственные | |||
Обстоятельственное | обст | Глагол или слово другой части речи, являющееся вершиной предложения | Обстоятельство |
Длительное | длительн | Глагол | Обстоятельство длительности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
Кратно-длительное | кратно-длительн | Глагол | Обстоятельство многократной длительности, выражаемое существительным в творительном падеже множественного числа |
Дистанционное | дистанц | Глагол | Обстоятельство пространственной протяженности, выражаемое существительным в винительном падеже или предложной группой со значением приблизительного количества или распределительности |
Обстоятельственно-тавтологическое | обст-тавт | Глагол | Существительное в творительном падеже, дублирующее часть значения слова-хозяина |
Субъектно-обстоятельственное | суб-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно субъект действия |
Объектно-обстоятельственное | об-обст | Глагол | Обстоятельство в творительном падеже, характеризующее одновременно объект действия |
Субъектно-копредикативное | суб-копр | Глагол | Вершина именной группы в именительном или творительном падеже, либо вершина предложной группы, выступающая в функции, близкой к функции именной части составного сказуемого, но по смыслу характеризующая подлежащее и (в случае именной группы) согласующаяся с ним по роду и числу |
Объектно-копредикативное | об-копр | Глагол | Вершина именной группы в творительном или винительном падеже или вершина предложной группы, характеризующая дополнение. Если слово-слуга выражено именной группой, то оно согласуется с дополнением по роду и числу |
Ограничительное | огранич | Слово любой части речи | Частица или ограничительное наречие |
Вводное | вводн | Сказуемое или другой член предложения | Вводное слово, вводный оборот, предложение или обращение |
Изъяснительное | изъясн | Вершина главного предложения | Вершина придаточного предложения, включающего союзное слово что, отчего или почему |
Разъяснительное | разъяснит | Произвольное слово | Слово, которое имеет зависимые и вместе с ними сообщает дополнительную информацию о слове-хозяине или группе слов, представленных словом-хозяином. Необходимо присутствие формального «маркера разъяснения», которым может быть знак препинания или выражение, вводящее дополнительную информацию |
Примыкательное | примыкат | Слово, являющееся «хозяином» выражения, вершиной которого является слово-слуга | Вершина выражения, зависящего от слова-хозяина, расположенного справа от слова-хозяина и заключенного в скобки или ограниченного с обеих сторон тире |
Уточнительное | уточн | Представитель (вершина) некоторого выражения | Представитель некоторого выражения. Это выражение семантически уточняет выражение, представителем которого являтся слово-хозяин, однако оба этих выражения имеют одинаковую синтаксическую функцию. |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Сочинительное | сочин | Член сочинительной конструкции | Член сочинительной конструкции или сочинительный союз. Расположен непосредственно справа от слова-хозяина. |
Сентенциально-сочинительное | сент-соч | Вершина первого из однородных предложений | Вершина второго предложения или сочинительный союз |
Сочинительно-союзное | соч-союзн | Сочинительный союз | Вершина второго из однородных членов или предложений |
Кратное | кратн | Главный член кратной конструкции — существительное, прилагательное, наречие, числительное или глагол | Зависимый член кратной конструкции. Оформлен либо так же, как и главный член, и отделен от него дефисом, тире, двоеточием или наклонной чертой, либо вводится предлогом «на» или «к» |
Синтаксическое отношение | Сокращение | Слово-хозяин | Слово-слуга |
---|---|---|---|
Аналитическое | аналит | Элементы составного глагольного сказуемого. Эти элементы оформляют сложное будущее время или сослагательное наклонение | |
Пассивно-аналитическое | пасс-анал | Глагол-связка «быть» | Страдательное причастие |
Количественно-вспомогательное | колич-вспом | Правая часть составного числительного или составного порядкового прилагательного | Левая часть составного числительного или составного порядкового прилагательного |
Соотносительное | соотнос | Левая часть разрывного парного союза, предлога или частицы, или правая часть разрывного парного сочинительного союза | Правая часть разрывного парного союза, предлога или частицы, или левая часть разрывного парного сочинительного союза |
Эксплетивное | эксплет | Указательное местоимение-«прокладка» типа то, тот | Подчинительный союз или вершина предложения. Слово-хозяин «расшифровывается» словом-слугой |
Пролептическое | пролепт | Семантически неполнозначное слово, занимающее полноценную позицию в предложении | Слово, вынесенное вовне |
Вспомогательное | вспом | Части образующих синтаксическое и смысловое единство словосочетаний |
Для записи информации о синтаксической структуре предложения в СинТагРусе используются два атрибута каждого слова предложения: DOM, значением которого является ID слова-хозяина, и LINK, значением которого является имя соответствующего синтаксического отношения[16]. Вершина предложения имеет специальное значение _root атрибута DOM[18].
Лексико-семантическая разметка
Каждой словоформе, помимо леммы, приписывается атрибут KSNAME, значением которого является имя соответствующей статьи толково-комбинаторного словаря лингвистического процессора ЭТАП. За счёт этого, с одной стороны, уточняется значение многозначных и омонимичных слов, а с другой стороны, устанавливается связь со статьями словаря, который используется процессором ЭТАП, и становится доступной содержащаяся в этих статьях информация о семантических свойствах слов[10].
Лексико-функциональная разметка
В предложениях отмечаются словосочетания, которые можно интерпретировать в терминах лексических функций. Для разметки таких словосочетаний внутри предложения создаются дополнительные элементы отдельно от самих словоформ[13].
Микросинтаксическая разметка
Под микросинтаксическими единицами в СинТагРусе понимаются фразеологизмы с синтаксической спецификой[19]. В качестве примера можно привести составной предлог в силу. С одной стороны, он синтаксически близок к первообразным предлогам. Действительно, между элементами этого предлога нельзя вставить местоименное определение к существительному, как в других предложных конструкциях типа в виде, в случае и др. Кроме того, если этому предлогу в предложении подчиняется личное местоимение третьего лица, то к такому местоимению в большинстве случаев добавляется начальное н-, как и в случае первообразных предлогов. С другой стороны, первая часть некоторых парных союзов, а также частица ли или же, может располагаться между предлогом в силу и зависящим от него существительным, что не дает возможности отнести этот предлог к первообразным[20].
Если в некотором предложении корпуса встречается микросинтаксическая единица, то добавляется новый атрибут предложения — MICROSYNT, значением которого являются имя соответствующей микросинтаксической единицы и её линейные границы[19].
Анафорическая разметка
Для встреченного в тексте анафорического местоимения указывается его Шаблон:Не переведено 5, то есть выражение, к которому это местоимение отсылает. У предложения, в котором найдено анафорическое местоимение, имеется дополнительный атрибут COREF, значением которого является список пар местоимение — антецедент, соответствующий данному местоимению. Для каждого анафорического местоимения указывается его линейное положение в предложении, а для антецедента, помимо этого, дополнительно указывается, в каком предложении относительно рассматриваемого он находится (в пределах трёх предложений в обе стороны)[4].
Обработка эллиптических конструкций
В СинТагРусе опущенные фрагменты эллиптированных предложений восстанавливаются явно. Соответствующая восстановленная словоформа размечается точно так же, как и другие словоформы; в частности, от таких «фантомных» слов проводятся все необходимые синтаксические связи. При этом словоформе приписывается атрибут NODETYPE со значением FANTOM[2][21].
Использование корпуса
СинТагРус используется в различных областях. С одной стороны, на его основе проводятся чисто лингвистические исследования, как теоретические, так и практические (в частности, в области лексикографии). С другой стороны, корпус находит своё применение в задачах компьютерной лингвистики и обработки естественного языка как источник лингвистических данных, например, при создании синтаксических анализаторов. Эти задачи могут решаться с применением различных форматов разметки. В то же время объединение нескольких корпусов с разной разметкой в один делает последний более представительным. Эти обстоятельства приводят к задаче конвертации корпуса[4].
Предпринимались неоднократные попытки перевода СинТагРуса в другие форматы разметки: известны эксперименты по переводу корпуса в форматы Шаблон:Не переведено 5 и PDT[13]. Кроме того, СинТагРус был успешно переведён в форматы Шаблон:Не переведено 5[21], PTB[22] и SD[23]. Однако преобразование, во-первых, во всех случаях касалось только морфологической и синтаксической разметок, а во-вторых, осуществлялось в автоматическом режиме, что стало препятствием на пути к полноценной конвертации. Так, например, часть речи NID не удалось однозначно перевести в формат Шаблон:Не переведено 5 (в котором такой части речи нет) автоматически, поэтому все предложения СинТагРуса, в которых хотя бы одна словоформа имела такую часть речи, были исключены из корпуса перед конвертацией[21].
Доступ
СинТагРус бесплатно распространяется по некоммерческой лицензии[24]. Кроме того, версия корпуса без некоторых типов разметки доступна для некоммерческого использования в научно-исследовательских и учебных целях как подкорпус Национального корпуса русского языка и находится в открытом доступе[13], так же как и версии в форматах Шаблон:Не переведено 5 (лицензия CC BY-NC-SA 4.0)[21] и PTB (доступен только конвертер)[22].
Примечания
Ссылки
- Сайт Лаборатории компьютерной лингвистики ИППИ РАН
- СинТагРус на сайте Национального корпуса русского языка
- СинТагРус в формате CoNLL-U
- Конвертер СинТагРуса в формат Penn Treebank
- ↑ Шаблон:Статья
- ↑ 2,0 2,1 2,2 2,3 2,4 Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ 4,0 4,1 4,2 Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Книга
- ↑ Шаблон:Статья
- ↑ 8,0 8,1 8,2 Шаблон:Статья
- ↑ Шаблон:Книга
- ↑ 10,0 10,1 Шаблон:Статья
- ↑ 11,0 11,1 11,2 Шаблон:Статья
- ↑ Шаблон:Cite web
- ↑ 13,0 13,1 13,2 13,3 13,4 Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ 16,0 16,1 Шаблон:Статья
- ↑ Шаблон:Книга
- ↑ Шаблон:Статья
- ↑ 19,0 19,1 Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ 21,0 21,1 21,2 21,3 Шаблон:Статья
- ↑ 22,0 22,1 Шаблон:Статья
- ↑ Шаблон:Статья
- ↑ Шаблон:Книга