Русская Википедия:Тематическое моделирование

d)</math> матрица искомых условных распределений тем по документам : <math>d</math> — документ : <math>w</math> — слово : <math>d, w</math> — наблюдаемые переменные : <math>t</math> — тема (скрытая переменная)

Тематическое моделирование — способ построения модели коллекции текстовых документов, которая определяет, к каким темам относится каждый из документовШаблон:Sfn.

Тематическая модель (Шаблон:Lang-en) коллекции текстовых документов определяет, к каким темам относится каждый документ и какие слова (термины) образуют каждую темуШаблон:Sfn.

Переход из пространства терминов в пространство найденных тематик помогает разрешать синонимию и полисемию терминов, а также эффективнее решать такие задачи, как тематический поиск, классификация, суммаризация и аннотация коллекций документов и новостных потоков.

Тематическое моделирование как вид статистических моделей для нахождения скрытых тем, встреченных в коллекции документов, нашло своё применение в таких областях, как машинное обучение и обработка естественного языка. Исследователи используют различные тематические модели для анализа текстов, текстовых архивов документов, для анализа изменения тем в наборах документовШаблон:Переход. Интуитивно понимая, что документ относится к определённой теме, в документах, посвящённых одной теме, можно встретить некоторые слова чаще других. Например: «собака» и «кость» встречаются чаще в документах про собак, «кошки» и «молоко» будут встречаться в документах о котятах, предлоги «и» и «в» будут встречаться в обеих тематиках. Обычно документ касается нескольких тем в разных пропорциях, таким образом, документ в котором 10 % темы составляют кошки, а 90 % темы — собаки, можно предположить, что слов про собак в 9 раз больше. Тематическое моделирование отражает эту интуицию в математической структуре, которая позволяет на основании изучения коллекции документов и исследования частотных характеристик слов в каждом документе сделать вывод, что каждый документ — это некоторый баланс тем.

Наибольшее применение в современных приложениях находят подходы, основанные на Байесовских сетях — вероятностных моделях на ориентированных графах. Вероятностные тематические модели — это относительно молодая область исследований в теории самообучения Шаблон:Переход. Одним из первых был предложен вероятностный латентно-семантический анализ Шаблон:Переход (PLSA), основанный на принципе максимума правдоподобия, как альтернатива классическим методам кластеризации, основанным на вычислении функций расстояния. Вслед за PLSA был предложен метод латентного размещения Дирихле и его многочисленные обобщенияШаблон:Sfn Шаблон:Переход.

Вероятностные тематические модели осуществляют «мягкую» кластеризацию, позволяя документу или термину относиться сразу к нескольким темам с различными вероятностями. Вероятностные тематические модели описывает каждую тему дискретным распределением на множестве терминов, каждый документ — дискретным распределением на множестве тем. Предполагается, что коллекция документов — это последовательность терминов, выбранных случайно и независимо из смеси таких распределений, и ставится задача восстановления компонентов смеси по выборкеШаблон:Sfn Шаблон:Переход.

Хотя тематическое моделирование традиционно описывалось и применялось в обработке естественного языка, оно нашло своё применение и в других областях, например, таких как биоинформатика.

История

Первое описание тематического моделирования появилось в работе Рагавана, Пападимитриу, Томаки и Вемполы 1998 годаШаблон:Sfn. Томас Хофманн в 1999 годуШаблон:Sfn предложил вероятностное скрытое семантическое индексирование (PLSI). Одна из самых распространенных тематических моделей — это латентное размещение Дирихле (LDA), эта модель является обобщением вероятностного семантического индексирования и разработана Шаблон:Нп2, Эндрю Ыном и Шаблон:Нп2 в 2002 годуШаблон:Sfn. Другие тематические модели как правило являются расширением LDA, например, размещение патинко улучшает LDA за счёт введения дополнительных корреляционных коэффициентов для каждого слова, которое составляет тему.

Тематические исследования

Тэмплтон сделал обзор работ по тематическому моделированию в гуманитарных науках, сгруппированных по синхронному и диахроническому подходуШаблон:Sfn. Синхронные подходы выделяют темы в некоторый момент времени, например, Джокерс с помощью тематической модели исследовал, о чём писали блогеры в День Цифровых Гуманитарных наук в 2010 годуШаблон:Sfn.

Диахронические подходы, включая определение Блока и Ньюмана о временной динамике тем в Пенсильванской газете 1728—1800 годаШаблон:Sfn. Грифитс и Стейверс использовали тематическое моделирование для обзоров журнала PNAS, определяли изменения популярности тем с 1991 по 2001 годШаблон:Sfn. Блевин создал тематическую модель дневника Марты БалладсШаблон:Sfn. Мимно использовал тематическое моделирование для анализа 24 журналов по классической филологии и археологии за 150 лет, чтобы определить изменения популярности тем и узнать, насколько сильно изменились журналы за это времяШаблон:Sfn.

Алгоритмы тематического моделирования

В работе Дэвида Блея «Введение в тематическое моделирование» рассмотрен наиболее популярный алгоритм Латентное размещение ДирихлеШаблон:Переход Шаблон:Sfn. На практике исследователи используют одну из эвристик метода максимального правдоподобия, методы сингулярного разложения (SVD), метод моментов, алгоритм, основанный на неотрицательной матрице факторизации (NMF), вероятностные тематические модели, вероятностный латентно-семантический анализ, латентное размещение Дирихле. В работе Воронцова К. В. рассмотрены вариации основных алгоритмов тематического моделирования: робастная тематическая модель, тематические модели классификации, динамические тематические модели, иерархические тематические модели, многоязычные тематические модели, модели текста как последовательности слов, многомодальные тематические модели Шаблон:Sfn.

Вероятностные тематические модели основаны на следующих предположениях Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn Шаблон:Sfn:

Порядок документов в коллекции не имеет значения
Порядок слов в документе не имеет значения, документ — мешок слов
Слова, встречающиеся часто в большинстве документов, не важны для определения тематики
Коллекцию документов можно представить как выборку пар документ-слово <math>(d, w)</math> , <math>d \in D</math>, <math>w \in \mathit{W}_d</math>
Каждая тема <math>t \in T</math> описывается неизвестным распределением <math>p(\mathit{W}|t)</math> на множестве слов <math>w \in \mathit{W}</math>
Каждый документ <math>d \in D</math> описывается неизвестным распределением <math>p(t|d)</math> на множестве тем <math>t \in T</math>
Гипотеза условной независимости <math>p(w|t,d) = p (w|t)</math>

Построить тематическую модель — значит, найти матрицы <math>\Phi = ||p(w|t)||</math> и <math>\Theta = ||p(t|d)||</math> по коллекции <math>\mathit{D}</math> В более сложных вероятностных тематических моделях некоторые из этих предположений заменяются более реалистичными.

Вероятностный латентно-семантический анализ

Файл:Вероятностный латентно-семантический анализ.png

d)</math> — искомые условные распределения, <math>D</math> — коллекция документов, <math>N</math> — длина документа в словах

Вероятностный латентно-семантический анализ (PLSA) предложен Томасом Хофманном в 1999 году. Вероятностная модель появления пары «документ-слово» может быть записана тремя эквивалентными способами:

где <math>T</math> — множество тем;

<math> p(t)</math> — неизвестное априорное распределение тем во всей коллекции;

<math> p(d)</math> — априорное распределение на множестве документов, эмпирическая оценка <math>p(d) = n_d/n</math> , где <math>n = \sum_d n_d</math> — суммарная длина всех документов;

<math>p(w)</math> — априорное распределение на множестве слов, эмпирическая оценка <math>p(w) = n_w/n</math>, где <math>n_w</math> — число вхождений слова <math>w</math> во все документы;

Искомые условные распределения <math>p(w|t), p(t|d)</math> выражаются через <math>p(t|w), p(d|t)</math> по формуле Байеса:

<math>p(w|t) = \frac{p(t|w)p(w)}{\sum_{w'} p(t|w')p(w')};\qquad p(t|d) = \frac{p(d|t)p(t)}{\sum_{t'} p(d|t')p(t')}.</math>

Для идентификации параметров тематической модели по коллекции документов применяется принцип максимума правдоподобия, который приводит к задаче максимизации функционала^[1]

<math>\sum_{d\in D} \sum_{w\in d} n_{dw}\ln \sum_{t\in \Tau} \varphi_{wt} \theta_{td} \to \max_{\Phi,\Theta} ,</math>

при ограничениях нормировки

где <math>n_{dw}</math> — число вхождений слова <math>w</math> в документ <math>d</math>. Для решения данной оптимизационной задачи обычно применяется EM-алгоритм.

Основные недостатки PLSA:

Число параметров растёт линейно по числу документов в коллекции, что может приводить к переобучению модели.
При добавлении нового документа <math>d</math> в коллекцию распределение <math>p(t|d)</math> невозможно вычислить по тем же формулам, что и для остальных документов, не перестраивая всю модель заново.

Латентное размещение Дирихле

Файл:Латентное размещение Дирихле.png

Латентное размещение Дирихле LDA. :<math>w</math> — слово (наблюдаемая переменная) :<math>t</math> — тема (скрытая переменная) :<math>D</math> — коллекция документов :<math>N</math> — длина документа в словах :<math>K</math> — количество тем в коллекции :<math>\theta</math> — распределение тем в документе :<math>\phi</math> — распределение слов в теме

Метод латентного размещения Дирихле (LDA) предложен Дэвидом Блеем в 2003 году.

В этом методе устранены основные недостатки PLSA.

Метод LDA основан на той же вероятностной модели

при дополнительных предположениях:

вектора документов <math>\theta_d = \bigl(p(t|d): t\in T\bigr)</math> порождаются одним и тем же вероятностным распределением на нормированных <math>|T|</math>-мерных векторах; это распределение удобно взять из параметрического семейства распределений Дирихле <math>\mathrm{Dir}(\theta,\alpha),\; \alpha\in\mathbb{R}^{|T|}</math>;
вектора тем <math>\phi_t = \bigl(p(w|t): w\in W\bigr)</math> порождаются одним и тем же вероятностным распределением на нормированных векторах размерности <math>|W|</math>; это распределение удобно взять из параметрического семейства распределений Дирихле <math>\mathrm{Dir}(\theta,\beta),\; \beta\in\mathbb{R}^{|W|}</math>.

Для идентификации параметров модели LDA по коллекции документов применяется семплирование Гиббса, вариационный байесовский вывод или Шаблон:Нп3 (Expectation propagation).

См. также

[[|en]] (Explicit semantic analysis)
[[|en]] (Hierarchical Dirichlet process)

Примечания

Шаблон:Примечания

Литература

Ссылки

Лекция: Тематическое моделирование — К. В. Воронцов // Школа анализа данных (видео-лекции).
Лекция 2: Тематическое моделирование — К. В. Воронцов // Школа анализа данных (видео-лекции).
Шаблон:Cite web
Шаблон:Cite web
Шаблон:Cite web
Шаблон:Cite web
Шаблон:Cite web
Шаблон:Cite web
Шаблон:Cite web
Применение тематического моделирования для анализа новостей и ревю. Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation
Моделирование науки: Динамическое тематическое моделирование научных исследований. Video of a Google Tech Talk presentation by David M. Blei
Автоматизированная тематическая модель в политической науке. Video of a presentation by Brandon Stewart at the Tools for Text Workshop, 14 June 2010
Лекция: Тематическое моделирование — Дэвид Блей 2009 г. Видео лекция Принстонский университет
Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем Диалог 2014
Parsimonious Topic Models with Salient Word Discovery

Программное обеспечение и программные библиотеки

Малет (программа)
Инструментарий Стэнфордского университета по тематическому моделированию
GenSim — «тематическое моделирование для людей»
LDA C# LDA in Infer.NET

Шаблон:Обработка естественного языка

↑ Шаблон:Cite web

[1] Шаблон:Cite web

[1]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Тематическое моделирование

Содержание