Русская Википедия:Извлечение знаний

Извлечение знаний (Шаблон:Lang-en) — создание знаний из структурированных (реляционных баз данных, XML) и неструктурированных источников (тексты, документы, изображения). Полученное знание должно иметь формат, позволяющий компьютерный ввод, и должно представлять знания так, чтобы облегчить логические выводы. Хотя по методике процесс подобен извлечению информации (обработке естественного языка, Шаблон:Lang-en, NLP) и процессу «Извлечения, Преобразования, Загрузки» (Шаблон:Lang-en, ETL, для хранилищ данных), главный критерий результата — создание структурированной информации или преобразование в реляционную схему. Это требует либо преобразования существующего формального знания (повторного использования идентификаторов или онтологий), либо генерацией схемы, основанной на исходных данных.

Группа RDB2RDF W3C^[1] занимается стандартизацией языка для извлечения среды описания ресурса (Шаблон:Lang-en, RDF) из реляционной базы данных. Другой популярный пример извлечения знаний — преобразование Википедии в структурированные данные и отображение в существующее знание (см. DBpedia и Freebase).

Обзор

После стандартизации языков представления знания, таких как «среда описания ресурса» (Шаблон:Lang-en, RDF) и «язык описания онтологий» (Шаблон:Lang-en, OWL), много исследований проводилось в этой области, особенно относительно преобразования реляционной базы данных в RDF, Шаблон:Не переведено 5, обнаружения знаний и обучения онтологий. Основной процесс использует традиционные методы извлечения информации и методы «извлечения, преобразования и загрузка» (Шаблон:Lang-en, ETL), которые преобразуют данные из исходных форматов в структурированные форматы.

Следующие критерии могут быть использованы для попыток категоризации в этой теме (некоторые из них обеспечивают извлечение знаний из реляционных баз данных)^[2]:

Источник	Какие данные могут быть обработаны: Текст, Реляционная база данных, XML, CSV
Представление	Как извлечённые данные могут быть представлены для использования (файл онтологии (объектной модели), семантическая база данных)? Как можно запрашивать информацию из полученного представления?
Синхронизация	Выполняется ли извлечение знания один раз для получения дампа или результат синхронизируется с источником? Извлечение статическое или динамическое? Записываются ли изменения в результате обратно в источник (двунаправленность)?
Повторное использование словаря	Позволяет ли средство извлечения повторное использование существующих словарей при извлечении. Например, столбец таблицы 'firstName' может быть отражён в столбец foaf: firstName. Некоторые автоматические подходы не способны к отображению словаря.
Автоматизация	Степень участия/автоматизации извлечения: Ручной режим, есть GUI, полуавтоматический, автоматический.
Необходимость объектной модели предметной области	Требуется ли наперёд заданная объектная модель для отображения в неё. Таким образом, либо отображение создаётся, либо схема получается из источника путём (Шаблон:Не переведено 5).

Примеры

Связывание именованных сущностей

DBpedia Spotlight, Шаблон:Не переведено 5, Dandelion dataTXT, Zemanta API, Extractiv и PoolParty Extractor анализируют произвольный текст с помощью Шаблон:Не переведено 5, а затем разрешения неоднозначностей путём Шаблон:Не переведено 5 и связывания найденных сущностей в депозитарий знаний DBpedia Шаблон:Sfn (Dandelion dataTXT demo, или DBpedia Spotlight web demo, или PoolParty Extractor Demo).

Президент Обама призвал в среду Конгресс включить расширение налоговых каникул для студентов в пакет экономического стимулирования, утверждая, что эта политика даст более крепкую поддержку.

Так как Президент Обама связан в DBpedia с ресурсом LinkedData, дальнейшая информация может быть извлечена автоматически и Семантический механизм рассуждений может, например, сделать вывод, что упомянутая сущность является неким типом личности (используя FOAF) и президентом США (используя Шаблон:Не переведено 5). Контрпримеры: Методы, которые только распознают сущности и не связывают со статьями в Википедии или другими объектами, не обеспечивают извлечение дальнейших структурированных данных и формального знания.

Преобразование реляционной базы данных в RDF

Triplify, D2R Server, Ultrawrap и Шаблон:Не переведено 5 прредставления RDF являются средствами, которые преобразуют реляционную базу данных в RDF. В течение это процесса эти средства позволяют повторное использование словарей и онтологии в процессе преобразования. Когда преобразуется типичная реляционная таблица с названием users, один столбец (например, name) или группа столбцов (например, first_name и last_name) должны обеспечивать унифицированный идентификатор создаваемой сущности. Обычно используется главный ключ. Любой другой столбец может быть извлечён как связанный с этой сущностьюШаблон:Sfn. Затем используются (и повторно используются) свойства с формально определённой семантикой для интерпретации информации. Например, столбец таблицы user, названный marriedTo (женат на/замужем за) может быть определён как семантическое отношение, а столбец homepage (домашняя страница) может быть преобразован в свойство из словаря FOAF с названием foaf: homepage, тем самым квалифицируя его как обратную функциональность. Тогда каждый вход таблицы user может быть сделан экземпляром класса foaf:Person (онтология Население). Кроме того, предметная область (в виде онтологии) может быть создана из status_id путём вручную созданных правил (если status_id равен 2, строка таблицы принадлежит классу Учитель) или (полу-)автоматическими методами (Шаблон:Не переведено 5). Ниже приведён пример преобразования:

Name	marriedTo	homepage	status_id
Peter	Mary	http://example.org/Peters_page Шаблон:Недоступная ссылка	1
Claus	Eva	http://example.org/Claus_page Шаблон:Недоступная ссылка	2

 :Peter :marriedTo :Mary .  
 :marriedTo OWL:SymmetricProperty .  
 :Peter foaf:homepage  <http://example.org/Peters_page> .  
 :Peter foaf:Person (Физическое лицо).   
 :Peter :Student (Студент).  
 :Claus :Teacher (Учитель).

Извлечение из структурированных источников в RDF

Отображение 1:1 из таблиц/представлений реляционной базы данных в RDF сущности/атрибуты/значения

При построении представления реляционной базы данных (РБД, Шаблон:Lang-en) стартовой точкой часто служит диаграмма сущность-связь (Шаблон:Lang-en, ERD). Обычно каждая сущность представлена как таблица базы данных, каждое свойство сущности становится столбцом в этой таблице, а связь между сущностями показывается внешними ключами. Каждая таблица обычно определяет конкретный класс сущностей, а каждый столбец определяет одно из свойств этой сущности. Каждая строка в таблице описывает экземпляр сущности, однозначно определённый главным ключом. Строки таблицы вместе описывают набор сущностей. В эквивалентном RDF представлении того же набора сущности:

Каждый столбец в таблице является свойством (то есть предикатом)
Каждое значение в столбце является свойством атрибута (то есть является объектом)
Каждый ключ строки представляет ID сущности (то есть субъектом)
Каждая строка представляет экземпляр сущности
Каждая строка (экземпляр сущности) представляется в RDF коллекцией кортежей с общим субъектом (ID сущности).

Таким образом, чтобы выразить эквивалентное представление, основанное на семантике RDF, базовый алгоритм будет выглядеть следующим образом:

создаём схему RDF (RDFS) класса для каждой таблицы
преобразуем все главные ключи и внешние ключи в IRI идентификаторы
назначаем IRI предикат каждому столбцу
назначаем rdf: type предикат каждой строке, связывая его с IRI идентификатором RDFS класса
Для каждого столбца, не являющегося ни частью главного ключа, ни частью внешнего ключа, строим тройку, содержащую IRI главного ключа в качестве субъекта (подлежащего), IRI столбца в качестве предиката и значения столбца в качестве объекта.

Раннее упоминание базового или прямого отображения можно найти в сравнении Тимом Бернерсом-Ли ER-модели с RDF модельюШаблон:Sfn.

Сложные отображения реляционных баз данных в RDF

1:1 отображение, упомянутое выше представляет старые данные как RDF напрямую, а дополнительная доработка может быть использована для улучшения полноценности вывода RDF соответственно заданному сценарию использования. Как правило, информация теряется в течение преобразования диаграммы сущность-связь (Шаблон:Lang-en, ERD) в реляционные таблицы (детальное описание можно найти в статье «Шаблон:Не переведено 5») и должна быть восстановлена путём обратного проектирования. С концептуальной точки зрения подходы для извлечения могут прийти с двух направлений. Первое направление пытается извлечь или обучить (с помощью машинного обучения) OWL схему из заданной схемы базы данных. Ранние подходы использовали фиксированное количество созданных вручную правил отображения для улучшения 1:1 отображенияШаблон:Sfn Шаблон:Sfn Шаблон:Sfn. Более тщательно разработанные методы использовали эвристические или обучающие алгоритмы для порождения схематической информации (методы частично совпадают с Шаблон:Не переведено 5). В то время как некоторые подходы пытаются извлечь информацию из структуры, присущей SQL схемеШаблон:Sfn (анализируя, например, внешние ключи), другие подходы анализируют содержимое и значения в таблицах для создания концептуальных иерархийШаблон:Sfn (например, столбцы с малым числом значений являются кандидатами стать категориями). Второе направление пытается отобразить схему и её содержимое в существующую онтологию предметной области (см. также «Отображение онтологий»). Часто, однако, подходящая онтология предметной области не существует и её сначала следует создать.

XML

Поскольку XML структурирован в виде дерева, любые данные легко представить в формате RDF, который структурирован в виде графа. XML2 RDF является одним примером подхода, который использует пустые узлы RDF и преобразует элементы и атрибуты XML в свойства RDF. Случай, однако, более сложен, чем в случае реляционных баз данных. В реляционных таблицах главный ключ является идеальным кандидатом для субъекта выделенных троек. XML элемент, однако, может быть преобразован — в зависимости о контекста — как субъект, как предикат или как объект тройки. XSLT может быть использован как стандартный язык преобразования для ручного преобразования XML в RDF.

Обзор методов / средств

Название	Источник данных	Представление результата	Синхронизация данных	Язык отображения	Повторное исполь- зование словаря	Автома- тизация отобра- жения	Требуется онтология области	Исполь- зование GUI
Прямое отображение реляционных данных в RDF	Реляционные данные	SPARQL/ETL	динамическая		нет	автомати- ческая	нет	нет
CSV2RDF4LOD	CSV	ETL	статическая	RDF	да	ручная	нет	нет
Convert2RDF	Текстовый файл с разделителями	ETL	статическая	RDF/DAML	да	ручная	нет	да
D2R Server Шаблон:Wayback	РБД	SPARQL	двунаправленная	D2R Map	да	ручная	нет	нет
DartGrid	РБД	Язык запросов OWL	динамическая	Визуальные средства	да	ручная	нет	да
DataMaster	РБД	ETL	статическая	собственный	да	ручной	да	да
Расширение Google Refine’s RDF	CSV, XML	ETL	статическая	отсутствует		полуавто- матическая	нет	да
Krextor	XML	ETL	статическая	XSLT	да	ручная	да	нет
MAPONTO	РБД	ETL	статическая	собственный	да	ручная	да	нет
METAmorphoses	РБД	ETL	статическая	собственный язык, базирующийся на xml отображении	да	ручная	нет	да
MappingMaster	CSV	ETL	статическая	MappingMaster	да	GUI	нет	да
ODEMapster	РБД	ETL	статическая	собственная	да	ручная	да	да
OntoWiki CSV Importer Plug-in — DataCube & Tabular	CSV	ETL	статическая	RDF Data Cube Vocaublary	да	полуавто- матическая	нет	да
Poolparty Extraktor (PPX)	XML, Text	LinkedData	динамическая	RDF (SKOS)	да	полуавто- матическая	да	нет
RDBToOnto	РБД	ETL	статическая	отсутствует	нет	автомати- ческая, пользователь имеет шанс тонкой настройки результата	нет	да
RDF 123	CSV	ETL	статическая	нет	нет	ручная	нет	да
RDOTE	РБД	ETL	статическая	SQL	да	ручная	да	да
Relational.OWL	РБД	ETL	статическая	отсутствует	нет	автомати- ческая	нет	нет
T2LD	CSV	ETL	статическая	нет	нет	автомати- ческая	нет	нет
RDF-словарь Шаблон:Не переведено 5 (Шаблон:Lang-en)	Многомерные статистические данные в электронных таблицах			словарь Куба данных	да	ручная	нет
TopBraid Composer	CSV	ETL	статическая	SKOS	нет	полуавто- матическая	нет	да
Triplify	РБД	LinkedData	динамическая	SQL	да	ручная	нет	нет
Ultrawrap	РБД	SPARQL/ ETL	динамическая	R2RML	да	полуавто- матическая	нет	да
Virtuoso RDF Views	РБД	SPARQL	динамическая	Meta Schema Language	да	полуавто- матическая	нет	да
Virtuoso Sponger	структури- рованные и полуструкту- рированные источники данных	SPARQL	динамическая	Virtuoso PL & XSLT	да	полуавто- матическая	нет	нет
VisAVis	РБД	RDQL^[3]	ручная	SQL	да	ручная	да	да
XLWrap: Spreadsheet to RDF	CSV	ETL	статическая	TriG Syntax	да	ручная	нет	нет
XML в RDF	XML	ETL	статическая	нет	нет	автомати- ческая	нет	нет

Извлечение из естественного языкового источника

Наибольшая порция информации, содержащаяся в бизнес-документе (около 80 %Шаблон:Sfn), закодирована в естественном языке и потому не структурирована. Поскольку неструктурированные данные является, скорее, сложной задачей для извлечения знания, требуются более изощрённые методы, которые обычно дают худшие результаты по сравнению со структурированными данными. Однако возможность приобрести огромное количество извлечённых знаний компенсирует увеличивающуюся сложность и ухудшающееся качество извлечения. Далее источники на естественном языке понимаются как источники информации, в которых данные приведены как неструктурированные текстовые данные. Если данный текст вставлен в документ с разметкой (например, HTML-документ), упомянутые системы обычно удаляют элементы разметки автоматически.

Традиционное извлечение информации

Традиционное извлечение информации (Шаблон:Lang-en, IE^[4])Шаблон:Sfn — это технология обработки естественного языка, которая извлекает информацию из текстов на естественном языке и структурирует их подходящим образом. Виды информации, которые следует извлечь, должны быть указаны в модели перед началом процесса обработки, вот почему весь процесс традиционного извлечения информации зависим от рассматриваемой предметной области. ИЗ (Шаблон:Lang-en) распадается на следующие пять подзадач.

Шаблон:Не переведено 5 (Шаблон:Lang-en, NER)
Разрешение кореференции(Шаблон:Lang-en, CO)
Построение элементов шаблона (ПЭ, Шаблон:Lang-en, TE) (или Добавление атрибутов к сущностям)
Выявление связей между сущностями (ВС, Шаблон:Lang-en, TR)
Построение полного описания события (ППО, Шаблон:Lang-en, ST)

Задача распознавания именованных сущностей заключается в узнавании и категоризации всех именованных сущностей, содержащихся в тексте (назначение именованным сущностям предопределённые категории). Это работает путём применения методов, основанных на грамматике, или на статистических моделях.

Разрешение кореференции устанавливает эквивалентные сущности, которые были распознаны в тексте алгоритмом NER. Есть два связанных вида отношения эквавалентности. Первое отношение относится к связи между двумя различными сущностями (например, IBM Europe и IBM), а второе относится к связи между сущностью и её анафорической ссылкой (например, it и IBM). Оба вида могут быть распознаны разрешением кореференции.

Во время построения элементов шаблона система IE устанавливает описательные свойства сущностей, распознанные системами NER и CO. Эти свойства соответствуют обычным качествам, как «красный» или «большой».

Выявление связей между отдельными сущностями устанавливает отношения, которые существуют между элементами шаблона. Эти отношения могут быть нескольких видов, такие как работает-для или расположено-в, с ограничением, что как область, так и диапазон соответствуют сущностям.

Полные описания событий, которые проводятся в тексте, распознаются и структурируются согласно сущностям, распознанных системами NER и CO, а отношения распознаются системой ВС.

Извлечение информации на основе онтологий

Извлечение информации на основе онтологий (Шаблон:Lang-en, OBIE)Шаблон:Sfn является подобластью извлечения информации, в которой используется по меньшей мере одна онтология для управления процессом извлечения информации из текста на естественном языке. Система OBIE использует методы традиционного извлечения информации для распознавания понятий, сущностей и отношений использованных онтологий в тексте, которые будут структурированы в онтологию после процесса. Таким образом, вводимые онтологии формируют модель извлекаемой информации.

Обучение онтологий

Шаблон:Основная статья

Обучение онтологий (Шаблон:Lang-en, OL) это автоматическое или полуавтоматическое создание онтологий, включая извлечение соответствующих терминов объектной области из текста естественного языка. Так как построение онтологий вручную требует крайне интенсивной работы и затрат времени, существует большой стимул для автоматизации процесса.

Семантическое аннотирование

Во время семантического аннотирования (Шаблон:Lang-en, SA)Шаблон:Sfn текст на естественном языке сопровождается метаданными (часто представимы в Шаблон:Не переведено 5, Шаблон:Lang-en), которые должны сделать семантику содержащихся элементов понимаемыми машинами. В этом процессе, который обычно является полуавтоматическим, знания извлекаются в том смысле, что устанавливается связь между лексическими элементами и, например, понятиями из онтологий. Таким образом получаем знания, которые открывают значение сущности в обрабатываемом контексте, а потому определяет значение текста в Шаблон:Не переведено 5 с возможностью делать логические выводы. Семантическая аннотация обычно расщепляется на следующие две подзадачи.

Извлечение терминологии
Связывание именованных сущностей

На уровне извлечения терминологии из текста извлекаются лексические термины. С этой целью лексический анализатор сначала определяет границы слов и выделяет аббревиатуры. Затем из текста извлекаются термины, которые соответствуют понятиям, с помощью словаря специфичных области исследования для связывания сущностей.

При связывании сущностейШаблон:Sfn устанавливается связь между извлечёнными лексическими членами из текста-источника и понятиями из онтологии или базы знаний, такой как DBpedia. Для этого кандидаты в понятия выявляются согласно определённым значениям элемента с помощью словаря. Наконец, анализируется контекст терминов для определения наиболее подходящего разрешения многозначности и термину назначается правильное понятие.

Средства

Следующие критерии могут быть использованы для категоризации средств, которые извлекают знание из текстов на естественном языке.

Источник	Какие входные форматы могут быть обработаны (простой текст, HTML или PDF, например)?
Парадигма доступа	Может ли средство запросить часть данных из источника или необходим полный дамп для процесса извлечения?
Синхронизация данных	Синхронизирован ли результат извлечения с источником?
Использование объектной модели	Связывает ли средство результат с объектной моделью?
Автоматизация отображения	Насколько автоматизирован процесс извлечения (ручной, полуавтоматический или автоматический)?
Требование объектной модели	Требует ли средство наличия объектной модели для извлечения?
Использование GUI	Имеет ли средство графический пользовательский интерфейс (Шаблон:Lang-en, GUI)?
Подход	Какой подход (IE, OBIE, OL или SA) средство использует?
Извлекаемые сущности	Какие типы сущностей (например, именованные сущности, концепции или отношения) могут быть извлечены средством?
Применяемые техники	Какие техники применяются (например, NLP, статистические методы, кластеризация или машинное обучение)?
Выходная модель	Какая модель используется для представления результата средства (например, RDF или OWL)?
Поддерживаемые предметные области	Какие предметные области поддерживаются (например, экономика или биология)?
Поддерживаемые языки	Какие языки могут быть обработаны (например, английский, немецкий или русский)?

Следующая таблица описывает некоторые средства для извлечения знаний из источников естественного языка.

Название	Источник	Парадигма доступа	Синхронизация данных	Использование объектной модели	Автоматизация отображения	Требование объектной модели	Использование GUI	Подход	Извлекаемые сущности	Применяемые техники	Выходная модель	Поддерживаемые области	Поддерживаемые языки
AeroText^[5]	текстовые данные, HTML, XML, SGML	дамп	нет	да	автоматическое	да	да	IE	именованные сущности, связи, события	лингвинистические правила	собственная	не зависит от области	английский, испанский, арабский, китайский, индонезийский
AlchemyAPI^[6]	текстовые данные, HTML				автоматическое		да	SA					многоязычный
ANNIE ^[7]	текстовые данные	дамп				да	да	IE		алгоритмы конечного автомата			многоязычный
ASIUM (LRI)	текстовые данные	дамп			полуавтомат		да	OL	понятия, иерархия понятий	NLP, кластеризация
Exhaustive Extraction компании Шаблон:Не переведено 5					автоматическое			IE	именованные сущности, связи, события	NLP
Dandelion API	текстовые данные, HTML, URL	REST	нет	нет	автоматически	нет	да	SA	именованные сущности, понятия	статистические методы	JSON	не зависит от области	многоязычный
DBpedia Spotlight Шаблон:Sfn	текстовые данные, HTML	дамп, SPARQL	да	да	автоматическое	нет	да	SA	annotation to each word, annotation to non-stopwords	NLP, statistical methods, машинное обучение	RDFa	не зависит от области	английский
EntityClassifier.eu	текстовые данные, HTML	дамп	да	да	автоматическое	нет	да	IE, OL, SA	annotation to each word, annotation to non-stopwords	rule-based grammar	XML	не зависит от области	английский, немецкий, голландский
FRED Шаблон:Sfn	текстовые данные	дамп, REST API	да	да	автоматическое	нет	да	IE, OL, SA, онтологические шаблоны проектирования, семантика фреймов	слова NIF или EarMark аннотация, предикаты, экземпляры, композиционная семантика, понятия таксономий, семантические роли, описательные отношения, события, наклонение, грамматическое время, связывание именованных сущностей, связывание событий, эмоции	NLP, машинное обучение, heuristic rules	RDF / OWL	не зависит от области	английский, другие языки после перевода
iDocument Шаблон:Sfn	HTML, PDF, DOC	SPARQL		да			да	OBIE	instances, property values	NLP		personal, business
NetOwl Extractor^[8]	текстовые данные, HTML, XML, SGML, PDF, MS Office	дамп	нет	да	автоматически	да	да	IE	именованные сущности, связи, события	NLP	XML, JSON, RDF — OWL, others	множественные области	английский, арабский, китайский (упрощённый и традийионный), французский, корейский, персидский (фарси и дари), русский, испанский
OntoGen Шаблон:Wayback Шаблон:Sfn					полуавтомат		да	OL	понятия, иерархия понятий, non-taxonomic отношения, instances	NLP, машинное обучение, кластеризация
OntoLearn Шаблон:Wayback Шаблон:Sfn	текстовые данные, HTML	дамп	нет	да	автоматически	да	нет	OL	понятия, иерархия понятий, instances	NLP, statistical methods	собственная	не зависит от области	английский
OntoLearn Reloaded	текстовые данные, HTML	дамп	нет	да	автоматически	да	нет	OL	понятия, иерархия понятий, instances	NLP, statistical methods	собственная	не зависит от области	английский
OntoSyphon Шаблон:Sfn	HTML, PDF, DOC	дамп, search engine queries	нет	да	автоматически	да	нет	OBIE	понятия, отношения, instances	NLP, statistical methods	RDF	не зависит от области	английский
ontoX Шаблон:Sfn	текстовые данные	дамп	нет	да	полуавтоматически	да	нет	OBIE	instances, datatype property values	heuristic-based methods	собственная	не зависит от области	не зависит от языка
OpenCalais	текстовые данные, HTML, XML	дамп	нет	да	автоматически	да	нет	SA	annotation to entities, annotation to события, annotation to facts	NLP, машинное обучение	RDF	не зависит от области	английский, французский, испанский
PoolParty Extractor (2011)	текстовые данные, HTML, DOC, ODT	дамп	нет	да	автоматически	да	да	OBIE	именованные сущности, понятия, отношения, понятия, that categorize the text, enrichments	NLP, машинное обучение, статистические методы	RDF, OWL	не зависит от области	английский, немецкий, испанский, французский
Rosoka	текстовые данные, HTML, XML, SGML, PDF, MS Office	дамп	да	да	автоматически	нет	да	IE	извлечение именованных сущностей, разрешение сущностей, извлечение связей, атрибутов, понятий, мультивекторный анализ тональности высказывания, геопривязка, идентификация языка, машинное обучение	NLP	XML, JSON, POJO	множественные области	многоязычный (200+ язык)
SCOOBIE	текстовые данные, HTML	дамп	нет	да	автоматически	нет	нет	OBIE	instances, property values, RDFS types	NLP, машинное обучение	RDF, RDFa	не зависит от области	английский, немецкий
SemTag Шаблон:Sfn Шаблон:Sfn	HTML	дамп	нет	да	автоматически	да	нет	SA		машинное обучение	database record	не зависит от области	не зависит от языка
smart FIX	текстовые данные, HTML, PDF, DOC, e-Mail	дамп	да	нет	автоматически	нет	да	OBIE	именованные сущности	NLP, машинное обучение	собственная	не зависит от области	английский, немецкий, французский, голландский, польский
Text2Onto Шаблон:Sfn	текстовые данные, HTML, PDF	дамп	да	нет	полуавтоматически	да	да	OL	понятия, концепция понятий, non-taxonomic отношения, instances, axioms	NLP, статистические методы, машинное обучение, rule-based methods	OWL	не зависит от области	английский, немецкий, испанский
Text-To-Onto Шаблон:Sfn	текстовые данные, HTML, PDF, PostScript	дамп			полуавтоматически	да	да	OL	понятия, иерархия понятий, non-taxonomic отношения, lexical entities referring понятиям, lexical entities referring to отношения	NLP, машинное обучение, кластеризация, статистические методы			немецкий
ThatNeedle	Текстовые данные	дамп			автоматически		нет		понятия, отношения, hierarchy	NLP, собственная	JSON	множественные области	английский
The Wiki Machine^[9]	текстовые данные, HTML, PDF, DOC	дамп	нет	да	автоматически	да	да	SA	маркировка имен собственных, маркировка имён нарицательных	машинное обучение	RDFa	независимый от области	английский, немецкий, испанский, французский, португальский, итальянский, русский
ThingFinder^[10]								IE	именованные сущности, связи, события				многоязычный

Обнаружение знаний

Обнаружение знаний описывает процесс автоматического поиска больших объёмов данных для моделей, которые могут считаться знанием о данныхШаблон:Sfn. Это часто описывается как извлечение знания из входных данных. Обнаружение знаний разрабатывается для анализа данных и тесно связано как с методологией, так и терминологиейШаблон:Sfn.

Наиболее известная ветвь интеллектуального анализа данных — обнаружение знаний, известное также как обнаружение знаний в базах данных. Как и многие другие формы обнаружения знаний, этот анализ создаёт абстракции входных данных. Знание, приобретённое в результате этого процесса, может стать дополнительными данными, которые могут быть использованы для дальнейшего использования и поисков. Часто выходные данные процесса обнаружения знаний не имеет практической ценности, так что Шаблон:Не переведено 5, известное также как «Шаблон:Не переведено 5»Шаблон:Sfn, предназначено для обнаружения и извлечения (имеющего практическое значение) активного знания и выводов из этого знания.

Другое перспективное приложение обнаружения знаний находится в области Шаблон:Не переведено 5, обнаружения слабых мест и соответствия стандартам, которое вовлекает понимание существующего программного обеспечения. Этот процесс связан с понятием обратной разработки. Обычно знание, получаемое из существующего программного обеспечения, представляется в виде моделей, к которым могут быть сделаны конкретные запросы, если необходимо. Модель сущность — связь является частым форматом, представляющим знание и получаемым из существующего программного обеспечения. Консорциум Object Management Group разработал спецификацию Шаблон:Не переведено 5 (Шаблон:Lang-en, KDM), которая определяет онтологию для программных ресурсов и их связей, предназначенную для обнаружения знаний в существующем коде. Обнаружение знаний из известных программных систем, известное также как Шаблон:Не переведено 5, тесно связано с интеллектуальным анализом данных, поскольку существующие программные находки имеют огромное значение для управления рисками и Шаблон:Не переведено 5, которые служат ключевыми элементами для анализа и развития программных систем. Вместо анализа индивидуальных наборов данных Шаблон:Не переведено 5 фокусируется на метаданных, таких как производственный поток (например, поток данных, поток управления, схема вызовов), архитектуре, схемах баз данных и деловых правилах/терминах/процессах.

Ввод данных

Форматы вывода

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Статья
Шаблон:Статья Выдержка: Википедия имеет двойника с именем DBpedia. DBpedia имеет ту же структурированную информацию, что и Википедия, но преобразованную в понимаемый машинами формат.
Шаблон:Статья
Шаблон:Статья
Шаблон:Статья
Шаблон:Статья
Шаблон:Книга Шаблон:Wayback
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Статья
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга
Шаблон:Книга Шаблон:Wayback
Шаблон:Статья
Шаблон:Книга Шаблон:Недоступная ссылка
Шаблон:Статья Шаблон:Недоступная ссылка
Шаблон:Статья
Шаблон:Книга

Шаблон:Refend

Шаблон:Семантическая паутина Шаблон:Rq

↑ RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/ Шаблон:Wayback, charter: http://www.w3.org/2009/08/rdb2rdf-charter Шаблон:Wayback, R2RML: RDB в RDF Mapping Language: http://www.w3.org/TR/r2rml/ Шаблон:Wayback
↑ LOD2 EU Шаблон:Недоступная ссылка Deliverable 3.1.1 Knowledge Extraction from Structured Sources
↑ RDQL = RDF Query Language
↑ Не путать с MS IE = Интернет эксплорер компании Микрософт!
↑ Rocket Software, Inc. (2012). «technology for extracting intelligence from text»
↑ Orchestr8 (2012): «AlchemyAPI Overview»
↑ The University of Sheffield (2011). «ANNIE: a Nearly-New Information Extraction System»
↑ SRA International, Inc. (2012). «NetOwl Extractor»
↑ Machine Linking. «We connect to the Linked Open Data cloud»
↑ Шаблон:Cite web

[1] RDB2RDF Working Group, Website: http://www.w3.org/2001/sw/rdb2rdf/ Шаблон:Wayback, charter: http://www.w3.org/2009/08/rdb2rdf-charter Шаблон:Wayback, R2RML: RDB в RDF Mapping Language: http://www.w3.org/TR/r2rml/ Шаблон:Wayback

[2] LOD2 EU Шаблон:Недоступная ссылка Deliverable 3.1.1 Knowledge Extraction from Structured Sources

[3] RDQL = RDF Query Language

[4] Не путать с MS IE = Интернет эксплорер компании Микрософт!

[5] Rocket Software, Inc. (2012). «technology for extracting intelligence from text»

[6] Orchestr8 (2012): «AlchemyAPI Overview»

[7] The University of Sheffield (2011). «ANNIE: a Nearly-New Information Extraction System»

[8] SRA International, Inc. (2012). «NetOwl Extractor»

[9] Machine Linking. «We connect to the Linked Open Data cloud»

[10] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.