Русская Википедия:Авторский инвариант
Авторский инвариант (Шаблон:Lang-en) — Шаблон:Нет источника 2 Авторский инвариант применяется в задаче идентификации авторства текста.Шаблон:Переход
Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.
Описание
Идентификация авторства текста
Задача идентификации авторства текста
Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:Шаблон:Sfn
<math>T=\{t_1,...,t_k\} </math> — множество текстов,
<math>A=\{a_1,...,a_l\} </math> — множество авторов.
Для некоторого подмножества текстов <math>T'=\{t_1,...t_m\}\subseteq T</math> авторы известны , т.е. существует множество пар «текст–автор» <math>D=\{(t_i,a_j)\}^m_{i=1}</math>. Необходимо установить, кто из множества <math>A</math> является истинным автором остальных текстов (анонимных или спорных) <math>T=\{t_{m+1},...,t_k\}\subseteq T</math>
Методика идентификации автора неизвестного текста
Методика включает последовательность следующих действий:Шаблон:Sfn
- Выбор модели представления текстов в виде наборов признаков.
- Выбор группы признаков для проверки и формирования из неё авторского инварианта.
- Выбор классификаторов и их параметров.
- Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
- Непосредственно определение авторства неизвестного текста.
- Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.
Программное обеспечение для идентификации авторства текста
Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:Шаблон:Sfn
Название программы (Application name) | Автор (Developer) | Сайт (Website) | Описание (Description) |
---|---|---|---|
Программы для определения авторства текста | |||
Штампомер | Делицын Л. Л. | Штампомер | Программа статистического анализа текста и определения авторства. |
ЛингвоанализаторШаблон:Sfn | Хмелев Д. В. | Лингвоанализатор | Программа математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения. |
СМАЛТ | ПетрГУ | СМАЛТ | Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству. |
Стилеанализатор | Шевелев О. Г. | — | Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора. |
Программы выявления плагиата | |||
Антиплагиат | ЗАО «Анти-Плагиат», «Форексис» | Антиплагиат | Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете. |
Плагиат Информ | «СофтИнформ» | Плагиат Информ | Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей. |
АУРА-Текст | СПбГУ | АУРА-ТекстШаблон:Недоступная ссылка | Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики. |
Программы интеллектуального анализа данных | |||
Intelligent Miner for Text | IBM | Intelligent Miner for Text | Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации. |
TextAnalyst, PolyAnalyst | Мегапьютер Интеллидженс | TextAnalyst, PolyAnalyst | PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов. |
Text Miner | SAS | Text Miner Шаблон:Недоступная ссылка | Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными. |
SemioMap | Semio Corporation | — | Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков. |
Oracle Text, Oracle Data Mining | Oracle | Oracle Text, Oracle Data Mining | Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат. |
Knowledge Server | Autonomy | Knowledge Server | Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке. |
Программы, составляющие психологический портрет автора текста | |||
ЛИНГВА-ЭКСПРЕСС | Батов В. И. | — | Программа выявления особенностей речевого поведения и характера автора. |
Prostyle | США | — | Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами. |
ВААЛ | Белянина В. П. | ВААЛ | Программа фоносемантического анализа текста. |
Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.Шаблон:Sfn Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.Шаблон:Sfn
См. также
Примечания
Литература
- на русском языке
- на других языках