Русская Википедия:Чешский национальный корпус

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Карточка сайта Чéшский национа́льный ко́рпус (Český národní korpus или ČNK) — доступная для открытого поиска база письменных текстов в электронной форме на чешском языке, поддерживаемая Университетом имени Карла в Праге. Сайт доступен на чешском и английском языках.

История создания

Идея ЧНК была впервые выдвинута в 1991 году и поддержана представителями Факультета философии Карлова университета, Факультета математики и физики Карлова университета, Масарикова университета, Университета Палацкого, Института чешского языка Академии наук Чехии.

Предпосылками для создания корпуса послужили такие факторы, как отклонение современного чешского языка от общепринятых норм (создание корпуса помогло бы избавить чешскую лексикографию от подобных отклонений) и стабилизация политической ситуации (более широкое сотрудничество с международным научным сообществом помогло привнесению компьютерной лексикографии и корпусной лингвистики, как отдельных ветвей, в чешскую лингвистику). В 1994 году при Факультете философии Карлова университета был создан Институт Чешского национального корпуса, а также были подписаны соглашения о сотрудничестве Института с некоторыми институциями Чехии[1].

Составители

По состоянию на 10 сентября 2017 года над Чешским национальным корпусом работают:

Состав и объём корпуса

Корпус письменных текстов / Written corpora (synchronic) ~2705 млн словоупотреблений
Корпус устных текстов / Spoken corpora (synchronic) ~4 млн словоупотреблений
Диахронический корпус / Diachronic corpora 1,95 млн словоупотреблений
Корпус иностранных языков /Foreign language corpora 6248 млн словоупотреблений
Параллельный корпус / Parallel corpus 92 млн словоупотреблений

Общий объём корпуса составляет свыше 9 млрд словоупотреблений, из которых лемматизировано и размечено морфологическими тегами ~8894,5 млн[3].

Источники текстов

Основным содержимым ЧНК являются:

  • Тексты, полученные в электронном виде от издательских домов и индивидуальных владельцев
  • Тексты, полученные из газет (составляют абсолютное большинство текстов корпуса — около 60 %)
  • Тексты словарей (например, корпус FSC2000 ссылается на Частотный словарь чешского языка)[1]

Отдельный корпус ЧНК посвящён антиутопии Джорджа Оруэлла «1984», сравнительно небольшой размер которой (80 000 слов и 20 000 пунктуационных знаков) позволил вручную разметить текст почти безупречно[4].

Доступ

На сайте существует два вида доступа: публичный и полный.

Неавторизированный пользователь может искать лишь в корпусе SYN2010, объём которого составляет всего 100 млн слов, что составляет одну девяностую всей базы Чешского национального корпуса. SYN2010 состоит[5] на 40 % из художественной литературы, на 27 % из технической литературы и на 33 % из журналистских работ. Большинство текстов корпуса были созданы с 2005 до 2009 года.

Публичный доступ позволяет увидеть количество вхождений в SYN2010 и первые 50 примеров. Слова выдаются в формате concordance lines, когда каждая строка представляет собой часть текста, в которой присутствует заданное выражение. Для публичного доступа возможны использования базовых регулярных выражений, также возможен поиск по ключевым словам.

Зарегистрированный пользователь имеет полный доступ к базе данных Института ЧНК, а также к специальному менеджеру корпуса Bonito.

Bonito

Bonito (A Modular Corpus Manager Bonito) — графический пользовательский интерфейс (GUI) корпус-менеджера Manatee, созданный в Центре обработки естественного языка, который расположен на факультете информатики Института имени Масарика в Брно. Создатель — Павел Рыхлый (Pavel Rychlý), ассистент факультета[6].

Сотрудничество

На данный моментШаблон:Уточнить с корпусом сотрудничают следующие институции Чехии:

Также корпус сотрудничает с Факультетом славянских языков Брауновского университета (США), Факультетами филологии и искусств Санкт-Петербургского Государственного Университета (Россия), Факультетом философии и литературы [[|en]] (University_of_Granada) (Испания), Институтом немецкого языка в Мангейме (Германия), Университетом Амстердама (Нидерланды) и другими крупными научными центрами[7].

См. также

Примечания

Шаблон:Примечания

Ссылки

Шаблон:ВС