Русская Википедия:Авторский инвариант

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Авторский инвариант (Шаблон:Lang-en) — Шаблон:Нет источника 2 Авторский инвариант применяется в задаче идентификации авторства текста.Шаблон:Переход

Задача идентификации авторства текста — это задача установления авторства неизвестного текста с помощью выделения особенностей авторского стиля и сравнения этих особенностей с другими произведениями, авторство которых известно.

Описание

Шаблон:Нет источника 2

Шаблон:Нет источника 2

Идентификация авторства текста

Задача идентификации авторства текста

Формулировка задачи идентификации автора текста при ограниченном наборе альтернатив выглядит следующим образом:Шаблон:Sfn

<math>T=\{t_1,...,t_k\} </math> — множество текстов,

<math>A=\{a_1,...,a_l\} </math> — множество авторов.

Для некоторого подмножества текстов <math>T'=\{t_1,...t_m\}\subseteq T</math> авторы известны , т.е. существует множество пар «текст–автор» <math>D=\{(t_i,a_j)\}^m_{i=1}</math>. Необходимо установить, кто из множества <math>A</math> является истинным автором остальных текстов (анонимных или спорных) <math>T=\{t_{m+1},...,t_k\}\subseteq T</math>

Методика идентификации автора неизвестного текста

Методика включает последовательность следующих действий:Шаблон:Sfn

  1. Выбор модели представления текстов в виде наборов признаков.
  2. Выбор группы признаков для проверки и формирования из неё авторского инварианта.
  3. Выбор классификаторов и их параметров.
  4. Формирование модели авторского стиля, позволяющей разделять двух и более авторов на основе полученного авторского инварианта и обученного классификатора.
  5. Непосредственно определение авторства неизвестного текста.
  6. Принятие итогового решения об авторе текста ансамблем классификаторов в случае, если удалось найти несколько информативных групп признаков текста.

Программное обеспечение для идентификации авторства текста

Программное обеспечение, используемое для идентификации авторства текста, по основным задачам можно разделить на несколько типов:Шаблон:Sfn

Название программы (Application name) Автор (Developer) Сайт (Website) Описание (Description)
Программы для определения авторства текста
Штампомер Делицын Л. Л. Штампомер Программа статистического анализа текста и определения авторства.
ЛингвоанализаторШаблон:Sfn Хмелев Д. В. Лингвоанализатор Программа математического анализа структуры текста. Работает онлайн. Специализируется на произведениях Русской Фантастики. Программа определяет близость входного текста к одному из авторов и в результате выдает трех наиболее вероятных авторов, для каждого указывая три наиболее близких произведения.
СМАЛТ ПетрГУ СМАЛТ Программа морфологического и синтаксического анализа текста. Специализируется на публицистике 60-70 гг 19 века. Программа обладает инструментарием для выявления статистических признаков литературных текстов по жанру и авторству.
Стилеанализатор Шевелев О. Г. Программа анализа авторского стиля с точки зрения устойчивости, частоты и уникальности признаков автора.
Программы выявления плагиата
Антиплагиат ЗАО «Анти-Плагиат», «Форексис» Антиплагиат Программа определения плагиата. Определяет степень схожести входного текста с текстами, размешенными в Интернете.
Плагиат Информ «СофтИнформ» Плагиат Информ Программа сравнивает входной документ с документами в 2 базах данных: базе из печатных источников и базе Интернет-статей.
АУРА-Текст СПбГУ АУРА-ТекстШаблон:Недоступная ссылка Программа является инструментом проверки текстов курсовых, дипломных работ и диссертаций на наличие совпадений с внешними источниками. Специализируется на работах экономической тематики.
Программы интеллектуального анализа данных
Intelligent Miner for Text IBM Intelligent Miner for Text Система состоит из нескольких программ с такими функциями как определение языка текста, классификация текстов, разделение документов на группы по близости стиля, выявление в документе ключевых слов, выявление смысла текста и составление аннотации.
TextAnalyst, PolyAnalyst Мегапьютер Интеллидженс TextAnalyst, PolyAnalyst PolyAnalyst-система автоматического анализа текста. В состав PolyAnalyst входит система TextAnalyst, занимающаяся задачами Text Mining: создание семантической сети текста, аннотация текста, кластеризация и классификация документов.
Text Miner SAS Text Miner Шаблон:Недоступная ссылка Программа логической обработки текста. Программа интегрирует текстовую информация со структурированными данными.
SemioMap Semio Corporation Система состоит из 2 основных компонент - сервера SemioMap и клиента SemioMap. Работа системы включает 3 фазы: сервер индексирует неструктурированный текст и извлекает ключевые фразы, сервер выявляет связи между фразами и строит на основе совместной встречаемости этих фраз лексическую сеть, сервер представляет эту сеть в виде графиков.
Oracle Text, Oracle Data Mining Oracle Oracle Text, Oracle Data Mining Oracle Text - программа статистического и лингвистического анализа текста. Для каждого текста программой определяются ключевые темы, строится тематическое резюме и общее резюме-реферат.
Knowledge Server Autonomy Knowledge Server Программа статистического анализа текста. В программе применяются интеллектуальные алгоритмы, основанные на статистической обработке.
Программы, составляющие психологический портрет автора текста
ЛИНГВА-ЭКСПРЕСС Батов В. И. Программа выявления особенностей речевого поведения и характера автора.
Prostyle США Программа стилистического анализа текста, определяющая факторы расхождения между двумя документами.
ВААЛ Белянина В. П. ВААЛ Программа фоносемантического анализа текста.

Анализ известных методов определения авторства показал, что пока не существует универсального подхода, обеспечивающего стабильный достоверный результат. Небольшой объем текстов, действительно нуждающихся в атрибуции, не позволяет применять большинство известных методов.Шаблон:Sfn Таким образом, можно сделать вывод, что к настоящему времени на рынке не представлено эффективных программных решений, предназначенных для определения авторства текста.Шаблон:Sfn

См. также

Примечания

Шаблон:Примечания

Литература

на русском языке
на других языках