Русская Википедия:Коранический корпус арабского языка

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Карточка сайта

Файл:Quranic-arabic-corpus.png
Синтаксическое дерево суры (67:1)

Коранический корпус арабского языка — доступный для поиска электронный онлайн-корпус текстов Корана, включающий 77 430 арабских слов. Целью проекта является предоставление морфологических и синтаксических данных для исследователей, желающих изучить классический арабский язык[1][2][3][4][5].

Функции

Грамматический анализ текста помогает пользователям раскрывать предполагаемые значения каждого аята и предложения. Каждое слово текста Корана атрибутировано указанием его части речи и несколькими морфологическими характеристиками. В отличие от других корпусов арабского языка, грамматика, используемая Кораническим корпусом, является традиционной арабской грамматикой Ираб (إعراب). Коранический корпус арабского языка — это исследовательский проект, возглавляемый специалистом по компьютерным наукам Шаблон:Iw из Лидского университета[4], который является частью проекта по изучению арабского языка в Школе вычислительной техники под руководством Эрика Атуэлла[6].

Аннотированный корпус включает в себя[1][7]:

  • верифицированную вручную частеречную разметку текста на арабском языке;
  • аннотированную древовидную структуру корпуса классического арабского языка;
  • новую визуализацию традиционной арабской грамматики через графы зависимостей;
  • морфологический поиск по тексту Корана;
  • машиночитаемый морфологический арабо-английский словарь;
  • частеречный конкорданс арабского языка Корана, с лемматизацией;
  • онлайновую доску объявлений для волонтёров сообщества.

Частеречная разметка присваивает каждому слову корпуса тег части речи и морфологические признаки — например, указание, является данное слово существительным или глаголом, стоит в мужском или женском роде. На первом этапе проекта была задействована автоматическая частеречная разметка. Затем характеристики для каждого из 77 430 слов Корана поэтапно уточнены двумя аннотаторами, и уточнения продолжаются до настоящего времени.

Лингвистические исследования, в которых используется Коранический корпус, включают в себя обучение скрытой марковской модели частеречной разметки арабского языка[8], автоматическую категоризацию глав Корана[9] и просодический анализ текста[10].

Кроме того, проект предусматривает дословный перевод Корана на основе принятых английских источников вместо осуществления нового перевода Корана[4].

См. также

Примечания

Шаблон:Примечания

Ссылки

Шаблон:ВС Шаблон:Арабский язык Шаблон:Корпусная лингвистика

  1. 1,0 1,1 K. Dukes, E. Atwell and N. Habash (2011). Supervised Collaboration for Syntactic Annotation of Quranic Arabic. Шаблон:Wayback Language Resources and Evaluation Journal (LREJ). Special Issue on Collaboratively Constructed Language Resources.
  2. Supervised collaboration for syntactic annotation of Quranic Arabic Шаблон:Wayback at ResearchGate. Uploaded by Nizar Habash, Columbia University.
  3. K. Dukes and T. Buckwalter (2010). A Dependency Treebank of the Quran using Traditional Arabic Grammar. Шаблон:Wayback In Proceedings of the 7th International Conference on Informatics and Systems (INFOS). Cairo, Egypt.
  4. 4,0 4,1 4,2 The Quranic Arabic Corpus Шаблон:Wayback at The Muslim Tribune. June 20, 2011.
  5. Eric Atwell, Claire Brierley, Kais Dukes, Majdi Sawalha and Abdul-Baquee Sharaf. An Artificial Intelligence approach to Arabic and Islamic content on the internetШаблон:Недоступная ссылка, pg. 2. Riyadh: King Saud University, 2011.
  6. Шаблон:Cite web
  7. K. Dukes and N. Habash (2011). One-step Statistical Parsing of Hybrid Dependency-Constituency Syntactic Representations. Шаблон:Wayback International Conference on Parsing Technologies (IWPT). Dublin, Ireland.
  8. M. Albared, N. Omar and M. Ab Aziz (2011). Developing a Competitive HMM Arabic POS Tagger using Small Training Corpora.Шаблон:Недоступная ссылка Intelligent Information and Database Systems. Springer Berlin, Heidelberg.
  9. A. M. Sharaf and E. Atwell (2011). Automatic Categorization of the Quranic Chapters. Шаблон:Wayback 7th International Computing Conference in Arabic (ICCA11). Riyadh, Saudi Arabia.
  10. C. Brierley, M. Sawalha and E. Atwell (2012). Boundary Annotated Qur’an Corpus for Arabic Phrase Break Prediction. Шаблон:Wayback IVACS Annual Symposium. Cambridge.