Русская Википедия:Поверхностно-синтаксический анализ
Поверхностно-синтаксический анализ (Шаблон:Lang-en) — метод анализа предложений, в котором сначала идентифицируют составные части предложения (существительные, глаголы, прилагательные и т. п), а затем связывают их в элементы высшего порядка, которые имеют грамматическое значение (именные группы или фразы, глагольные группы и т. п.).
В то время как простые алгоритмы поверхностно-синтаксического анализа связывают составные части, используя элементарные шаблоны поиска (например, регулярные выражения), подходы на основе машинного обучения (классификаторы, тематическое моделирование и т. п.) могут учитывать контекстную информацию и формировать фрагменты, лучше отражая семантические связи между основными словами[1]. Таким образом, эти более совершенные методы решают проблему того, что сочетание элементарных составляющих может иметь разные значения на высшем уровне в зависимости от контекста предложения.
Схожий с лексическим анализом в компьютерных языках, этот метод широко применяется в обработке естественного языка.
Под названием «гипотеза поверхностной структуры» (Шаблон:Lang-en), его используют, чтобы дать объяснение, почему люди, изучающие второй язык, часто не могут правильно разобрать сложные предложения[2].
См. также
Примечания
Литература
Ссылки
- Apache OpenNLP Шаблон:Wayback OpenNLP содержит реализацию поверхностного анализатора.
- GATE General Architecture for Text Engineering Шаблон:Wayback Шаблон:Не переведено 5 содержит реализацию поверхностного анализатора.
- Поверхностный анализ Шаблон:Wayback NLTK
- Демонстрация Шаблон:Wayback поверхностного анализатора Illinois Shallow Parser
Шаблон:Обработка естественного языка