Русская Википедия:Связывание именованных сущностей

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Cвязывание именованных сущностей (от Шаблон:Lang-en, NEL) — задача, заключающаяся в определении идентичности сущностей, упомянутых в тексте. Рассмотрим, например, предложение «Я поеду в Киров на выходных». Суть связывания, в этом случае, будет заключаться в соотнесении слова «Киров» с городом Киров, а не с человеком по фамилии Киров, или с чем-либо ещё. NEL отличается от распознавания именованных сущностей (Named Entity Recognition, NER) тем, что NER определяет тип упоминаемой сущности (Личность, Географическая локация, Организация и т. п.), но не связывает сущность с каким-либо конкретным объектом.

Связывание именованных сущностей требует наличие базы знаний, содержащей сущности (или концепты), с которыми упоминания могут быть связаны. Популярным решением для связывания сущностей в тексте из открытых источников являются базы знаний, основанные на Wikipedia [1] [2], в которых каждая страница является именованной сущностью. NEL, использующий сущности Wikipedia, иногда называют викификаторами (Шаблон:Lang-en). База знаний также может быть получена автоматически из обучающего текста[3] или построена вручную[4].

Упоминание именованных сущностей может быть существенно неоднозначным, любой метод связывания должен уметь устранять эту неоднозначность. Было испробовано множество подходов для решения этой проблемы. Одним из плодотворных вариантов решения этой проблемы было предложено Милне и Виттеном (Milne and Witten), оно было основано на применении обучения с учителем с использованием текста ссылок wikipedia в качестве обучающих данных. [5] Кулкарни и др. использовали общее свойство близких по теме документов ссылаться на сущности сильно связанных типов. [6] Список самых современных систем для связывания именованных сущностей включает в себя AIDA, [7] AGDISTIS,[8] Babelfy[9] и TagMe.[10]

Связывание именованных сущностей используется для улучшения качества систем информационного поиска [1] и для улучшения качества электронных библиотек. [11] [12] NEL также является ключом к построению семантического поиска[13] . Например, NEL был успешно применен для валидации результата методов распознания именованных сущностей с использованием предположения о том, что каждый текст имеет специфичную область и контекст, и, следовательно, сущности, упомянутые в этом тексте, должны были иметь семантическую связь между собой[14]. Измерение семантической близости может быть использовано для фильтрации ошибок в идентификации сущностей вне контекста, даже когда для единственного упоминания возможно множество интерпретаций.

Компания по оценке NEL (Entity Linking evaluation campaigns) организована Национальным Институтом Стандартов и Технологий США (NIST) в контексте задачи Пополнения Баз Знаний (Knowledge Base Population task) Конференции Анализа Текста (Text Analysis Conference).

Примечания

Шаблон:Примечания

  1. 1,0 1,1 M. A. Khalid, V. Jijkoun and M. de Rijke (2008). The impact of named entity normalization on information retrieval for question answeringШаблон:Недоступная ссылка. Proc. ECIR.
  2. Xianpei Han, Le Sun and Jun Zhao (2011). Collective entity linking in web text: a graph-based method Шаблон:Wayback. Proc. SIGIR.
  3. Aaron M. Cohen (2005). Unsupervised gene/protein named entity normalization using automatically extracted dictionaries. Proc. ACL-ISMB Workshop on Linking Biological Literature, Ontologies and Databases: Mining Biological Semantics, pp. 17-24.
  4. Wikidata
  5. David Milne and Ian H. Witten (2008). Learning to link with Wikipedia. Proc. CIKM.
  6. Шаблон:Cite conference
  7. Hoffart, J., Yosef, M. A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., Taneva, B., Thater, S., and Weikum, G. (2011). Robust disambiguation of named entities in text Шаблон:Wayback. In EMNLP
  8. Usbeck, R., Ngomo, A. N., Röder, M., Gerber, D., Coelho, S. A., Auer, S., and Both, A. (2014). AGDISTIS — graph-based disambiguation of named entities using linked data. In ISWC Шаблон:Wayback
  9. Moro, A., Raganato, A., and Navigli, R. (2014).Entity Linking meets Word Sense Dis- ambiguation: a Unified Approach Шаблон:Wayback
  10. Шаблон:Cite web
  11. Hui Han, Hongyuan Zha, C. Lee Giles, "Name disambiguation in author citations using a K-way spectral clustering method, " ACM/IEEE Joint Conference on Digital Libraries 2005 (JCDL 2005): 334—343, 2005
  12. Шаблон:Cite web
  13. Шаблон:Cite web
  14. Шаблон:Статья