Русская Википедия:Вероятностный классификатор

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Вероятностный классификатор — классификатор, который способен предсказывать, если на входе заданы наблюдения, распределение вероятностей над множеством классов, а не только вывод наиболее подходящего класса, к которому наблюдения принадлежат. Вероятностные классификаторы обеспечивают классификацию, которая может быть полезна сама по себеШаблон:Sfn или когда классификаторы собираются в ансамбли.

Типы классификации

Формально, «обычный» классификатор — это некоторое правило или функция, которая назначает наблюдению Шаблон:Mvar класс меток Шаблон:Mvar:

<math>\hat{y} = f(x)</math>

Наблюдения берутся из некоторого множества Шаблон:Mvar (например, множество всех документов, или множество всех изображений), в то время класс меток образует конечное множество Шаблон:Mvar, определённое до тренировки классификатора.

Вероятностные классификаторы обобщают понятие классификаторов — вместо функций они являются условными вероятностями <math>\Pr(Y \vert X)</math>, что значит, что для данного <math>x \in X</math> классификатор назначает вероятности для всех <math>y \in Y</math> (и сумма этих вероятностей равна единице). «Жёсткая» классификация может затем быть осуществлена с помощью правила принятия оптимальных решенийШаблон:Sfn.

<math>\hat{y} = \operatorname{\arg\max}_{y} \Pr(Y=y \vert X)</math>

то есть предсказанный класс — это класс с наибольшей вероятностью.

Бинарные вероятностные классификаторы называются в статистике также Шаблон:Не переведено 5 моделями. В эконометрике вероятностный классификатор в общем случае называется дискретным выбором.

Некоторые классификационные модели, такие как наивный байесовский классификатор, логистическая регрессия и многослойные перцептроны (когда они тренируются с подходящими функциями потерь) естественным образом являются вероятностными. Другие модели, такие как методы опорных векторов, вероятностными не являются, но существуют методы, превращающие их в вероятностные классификаторы.

Порождающая и условная тренировки

Некоторые модели, такие как модель логистической регрессии тренируются условно — они оптимизируют условную вероятность <math>\Pr(Y \vert X)</math> непосредственно на тренировочном наборе (минимизация эмпирического риска). Другие классификаторы, такие как наивный байесовский классификатор, являются тренированными Шаблон:Не переведено 5 классификаторами — во время тренировки находятся условное по классам распределение <math>\Pr(X \vert Y)</math> и априорный класс <math>\Pr(Y)</math>, а условное распределение <math>\Pr (Y \vert X)</math> получают с помощью байесовского правилаШаблон:Sfn.

Калибрация вероятности

Не все модели классификации естественным образом вероятностны, а те, которые вероятностны по своей природе, в частности, наивные байесовские классификаторы, деревья решений и методы бустинга, дают искажённые распределения вероятностейШаблон:Sfn. В случае деревьев решений, когда Шаблон:Math является пропорцией тренировочных выборок с меткой Шаблон:Mvar в листе, которым Шаблон:Math заканчивается, это искажение распределения возникает ввиду того, что обучающие алгоритмы, такие как C4.5 или деревья классификации и регрессии (Шаблон:Lang-en, CART) в явном виде стремятся получить однородные листья (давая вероятности, близкие к нулю или единице, а потому сильное смещение), в то время как для оценки пропорции используется лишь несколько экземпляров (высокая дисперсия)Шаблон:Sfn.

Файл:Calibration plot.png
Пример калибровочного графика

Может быть определено масштабирование с помощью калибровочного графика (называемого также диаграммой надёжности). Калибровочный график показывает пропорцию элементов в каждом классе для дорожек предсказанной вероятности или показателя (такого как искривлённое распределение вероятностей или «расстояния до гиперплоскости» (со знаком) в методе опорных векторов). Отклонения о тождественной функции указывают на плохо калиброванный классификатор, для которого предсказанные вероятности или показатели не могут быть использованы в качестве вероятностей. В этом случае можно использовать метод превращения этих показателей в должным образом Шаблон:Не переведено 5 класс вероятностей.

Для двоичного случая общим подходом является применение Шаблон:Не переведено 5, который обучает модель логистической регрессии по показателямШаблон:Sfn. Альтернативный метод с использованием Шаблон:Не переведено 5Шаблон:Sfn обычно лучше метода Платта, если доступен достаточно большой набор тренировлчных данныхШаблон:Sfn.

В Шаблон:Не переведено 5 случае можно использовать сведение к двоичным задачам с последующей одномерной калибровкой по алгоритму, как описано выше, а потом применением алгоритма попарного объединения Гесте и ТибшираниШаблон:Sfn.

Вычисление вероятностной классификации

Обычно используемые функции потерь для вероятностной классификации — логистическая функция потерь и Шаблон:Не переведено 5 между предсказанным и истинным распределением вероятностей. Первая из этих функций обычно используется для тренировки логистических моделей.

Метод, используемый для назначения показателей парам предсказанных вероятностей и актуальных дискретных исходов, так что различные методы предсказания можно было бы сравнить, называется Шаблон:Не переведено 5.

Примечания

Шаблон:Примечания

Литература

Шаблон:Rq Шаблон:Машинное обучение