Русская Википедия:Отбор признаков

Отбор признаков (отбор переменных, отбор атрибутов, отбор предикторов, реже — генерализация) — процесс отбора подмножества значимых признаков (как зависимых, так и независимых переменных) для построения модели в машинном обучении. Отбор признаков используется по четырём причинам:

упрощение модели для повышения интерпретируемостиШаблон:Sfn
для сокращения времени обучения
во избежание проклятия размерности
улучшение обобщающей способности модели и борьба с переобучением Шаблон:Sfn.

Центральный посыл использования техники отбора признаков — наличие в данных излишних или незначимых признаков, которые могут быть удалены без существенной потери информацииШаблон:Sfn. («Избыточность» и «незначимость» признаков — различные понятия, поскольку один значимый признак может быть излишним при присутствии другого значимого признака, с которым он сильно коррелируетШаблон:Sfn.)

Отбор признаков следует отличать от выделения признаков. Выделение признаков создаёт новые признаки, как функции от оригинальных признаков, в то время как отбор признаков возвращает подмножество признаков. Техники отбора признаков часто используются в областях, где имеется много признаков и выборки сравнительно малы (мало точек данных). Классическими местами применения отбора признаков являются анализ рукописных текстов и ДНК-микрочипы, где имеются много тысяч признаков и от десятков до сотен экземпляров выборки.

Введение

Алгоритм отбора признаков можно рассматривать, как комбинацию техник поиска для представления нового поднабора признаков вместе с вычислением меры, которая отражает различие подмножеств признаков. Простейшим алгоритмом является проверка каждого возможного подмножества признаков и нахождения того, который минимизирует величину ошибки. Это исчерпывающий поиск по пространству, и он является вычислительно трудным при большом количестве признаков. Выбор метрики влияет на выбор алгоритма. Метрики различаются для трёх основных категорий алгоритмов отбора признаков: обёртки, фильтры и методы вложенияШаблон:Sfn.

Методы обёртывания используют модель априорной оценки результата для ранжирования поднаборов признаков. Каждый новый поднабор используется для обучения модели, которая проверяется на контрольной выборке. На этой контрольной выборке считается число ошибок (показатель ошибок модели), которое даёт оценку для данного подмножества. Так как методы обёртывания осуществляют перебор всех подмножеств признаков с последующем обучением модели, они наиболее вычислительно затратны, но дают, как правило, лучший набор признаков для конкретной модели.
Методы фильтров используют косвенный показатель вместо показателя ошибки для оценки поднабора признаков. Этот показатель выбирается так, чтобы его можно было легко вычислить при сохранении показателя полезности набора признаков. Обычно применяемые меры — взаимная информация Шаблон:Sfn, Шаблон:Не переведено 5 Шаблон:Sfn, коэффициент корреляции смешанных моментов Пирсона, алгоритм, основанный на Шаблон:Не переведено 5 Шаблон:Sfn и расстояние между классами/внутри класса или результат критериев значимости для каждой комбинации класс/признакШаблон:Sfn Шаблон:Sfn. Фильтры обычно вычислительно менее интенсивны, чем обёртки, но они дают наборы признаков, которые не настроены на специфичный тип прогнозирующей моделиШаблон:Sfn. Этот недостаток настройки означает, что набор признаков, полученный из фильтра более общий, чем набор, полученный из обёртки, что приводит к меньшей обобщающей способности модели, чем у обёртки. Однако набор признаков не содержит предположений о прогнозирующей модели, а потому более пригоден для обнаружения связей между признаками. Многие фильтры обеспечивают ранжирование признаков, не давая явно лучшего их подмножества, а точка отсечения в ранжировании выбирается с помощью перекрёстной проверки. Методы фильтров используются также, как предварительные шаги обработки для методов обёртывания, что позволяет применять обёртывание для больших задач. Другим популярным подходом является алгоритм рекурсивного исключения признаков, обычно используемый вместе с методом опорных векторов для многократного построения модели и удаления незначимых признаков.
Методы вложения являются обобщающей группой техник, которые осуществляют отбор признаков, как часть процесса построения модели. Примером такого подхода является метод Шаблон:Не переведено 5 (Шаблон:Lang-en — метод оценивания коэффициентов линейной регрессионной модели) для построения линейной модели, такой как <math>L_1</math>-регуляризация, не давая коэффициентам модели расти и обнуляя наименее значимые. Любые признаки, которые имеют ненулевые коэффициенты регрессии, «выбираются» алгоритмом LASSO. Улучшения алгоритма LASSO включают алгоритм Bolasso, который формирует выборку путём бутстрэпа Шаблон:Sfn, Шаблон:Не переведено 5, которая комбинирует штраф <math>L_1</math> алгоритма LASSO со штрафом <math>L_2</math> гребневой регрессии, и метода FeaLect, который оценивает все признаки на основе комбинаторного анализа коэффициентов регрессииШаблон:Sfn. Эти подходы по вычислительной сложности оказываются где-то между фильтрами и обёртками.

В традиционной статистике наиболее популярной формой отбора признаков является Шаблон:Не переведено 5, которая является техникой оборачивания. Это жадный алгоритм, который добавляет лучший признак (или удаляет худший) на каждом шаге алгоритма. Главная проблема — момент остановки алгоритма. При обучении моделей это обычно делается путём перекрёстной проверки. В статистике некоторые критерии оптимизированы. Это ведёт к наследованию проблемы вложения. Исследовались и более устойчивые методы, такие как метод ветвей и границ и кусочно-линейная сеть.

Выбор поднабора

Выбор поднабора оценивает поднабор признаков, как группу стабильности. Алгоритмы выбора поднабора можно разбить на «Обёртки», «Фильтры» и «Вложения». Обёртки используют алгоритм поиска для анализа пространства на возможные признаки и оценивают каждый поднабор путём прогона модели на поднаборе. Обёртки могут быть вычислительно затратны и имеют риск переобучения модели. «Фильтры» похожи на «Обёртки» по подходу к поиску, но вместо оценки модели ранжируется более простой фильтр. Техники «Вложения» встраиваются в модель и специфичны для неё.

Многие популярные подходы используют жадный поиск восхождением к вершине, который итеративно оценивает поднабор признаков как кандидата, затем модифицирует поднабор и оценивает, насколько новый поднабор лучше старого. Оценка поднабора требует использования оценочной Шаблон:Не переведено 5, которая ранжирует поднаборы признаков. Исчерпывающий поиск, как правило, невыполним, так что разработчик (или оператор) определяет точку остановки, и поднабор признаков с наибольшей достигнутой оценкой, обнаруженный к этому моменту, выбирается как удовлетворительный поднабор признаков. Критерий остановки зависит от алгоритма. Возможные критерии: оценка поднабора превышает порог, программа превысила максимальное допустимое время, и так далее.

Альтернативные техники на основе поиска базируются на Шаблон:Не переведено 5, который находит проекции низкой размерности данных с высокой оценкой — выбираются признаки, которые имеют наибольшие проекции в пространстве низкой размерности.

Подходы для поиска:

Исчерпывающий поиск
Поиск по первому наилучшему совпадению
Имитации отжига
Генетический алгоритм Шаблон:Sfn
Жадный прямой отборШаблон:Sfn Шаблон:Sfn Шаблон:Sfn
Жадное обратное исключение
Метод роя частиц Шаблон:Sfn
Шаблон:Не переведено 5
Распределенный поискШаблон:Sfn
Шаблон:Не переведено 5 Шаблон:Sfn Шаблон:Sfn

Две популярные метрики фильтров для задач классификации — корреляция и взаимная информация, хотя ни одна из них не является истинной Шаблон:Не переведено 5 или «мерой расстояния» в математическом смысле, поскольку для них не выполняется неравенство треугольника, а потому они не представляют действительного «расстояния» — их следует, скорее, понимать как «оценку». Эти оценки вычисляются между признаками-кандидатами (или наборами признаков) и желаемой категорией. Есть, однако, истинные метрики, которые являются простыми функциями от взаимной информацииШаблон:Sfn.

Другие возможные метрики фильтров:

Отделимость классов
Вероятность ошибки
Межклассовое расстояние
Вероятностное расстояние
Энтропия
Выбор признаков на основе непротиворечивости
Выбор признаков на основе корреляции.

Критерий оптимальности

Выбор критерия оптимальности сложен, так как имеется несколько целей в задаче отбора признаков. Многие критерии включают меру точности со штрафованием числом выбранных признаков (например, байесовский информационный критерий). Наиболее старыми являются Шаблон:Не переведено 5 и информационный критерий Акаике (Шаблон:Lang-en, AIC). Они добавляют переменные, если t-статистика превосходит <math>\sqrt{2}</math>.

Другими критериями являются байесовский информационный критерий (БИК, Шаблон:Lang-en, BIC), который использует <math>\sqrt{\log{n}}</math>, минимальная длина описания (Шаблон:Lang-en, MDL), который асимптотически использует <math>\sqrt{\log{n}}</math>, Бонферрони / RIC, который использует <math>\sqrt{2\log{p}}</math>, отбор признаков с максимальной зависимостью, и набор новых критериев, которые продиктованы идеей Шаблон:Не переведено 5 (Шаблон:Lang-en, FDR) и которые используют нечто, близкое к <math>\sqrt{2\log{\frac{p}{q}}}</math>. Критерий максимума энтропийной скорости может также быть использован для выбора наиболее значимого поднабора признаковШаблон:Sfn.

Структурное обучение

Фильтр отбора признаков является специальным случаем более общей парадигмы с названием «структурное обучение». Выбор признаков находит значимый набор признаков для конкретной целевой переменной, в то время как структурное обучение находит связи между переменными, обычно выражая эти связи в виде графа. Наиболее распространённые алгоритмы структурного обучения предполагают, что данные генерируются байесовской сетью, так что структура является ориентированной графовой моделью. Оптимальное решение задачи фильтра отбора признаков является марковским ограждением целевого узла и в байесовской сети имеется единственное марковское ограждение для каждого узлаШаблон:Sfn.

Механизмы отбора признаков на основе информационной теории

Есть различные механизмы отбора признаков, которые используют взаимную информацию для оценки различных признаков. Они обычно используют один и тот же алгоритм:

Вычисляется взаимная информация как оценка между всеми признаками (<math> f_{i} \in F </math>) и целевым классом (<math> c </math>)
Выбирается признак с наибольшей оценкой (например, <math>argmax_{f_{i} \in F}(I(f_{i},c))</math>) и добавляется в набор отобранных признаков (<math> S </math>)
Вычисляется оценка, которая может быть получена из взаимной информации
Выбираем признак с наибольшей оценкой и добавляем в набор отобранных признаков (например, <math>argmax_{f_{i} \in F}(I_{derived}(f_{i},c))</math>)
Повторяем шаги 3. и 4. Пока не наберём определённое число признаков (например, <math>|S|=l</math>)

Наиболее простой подход использует взаимную информацию в качестве «производной» оценкиШаблон:Sfn.

Однако, есть различные походы, которые пытаются уменьшить избыточность между признаками.

Выбор признаков на основе минимальной избыточности-максимальной релевантности

Пэн, Лон и ДинШаблон:Sfn предложили метод отбора признаков, который может использовать взаимную информацию, корреляцию или оценку расстояния/похожести для отбора признаков. Целью является наложение штрафа на значимость признака при избыточности, вызванной присутствием в других выбранных признаках. Значимость набора признаков Шаблон:Mvar для класса Шаблон:Mvar определяется средним значением всех значений взаимной информации между индивидуальным признаком Шаблон:Math и классом Шаблон:Mvar:

Избыточность всех признаков в наборе Шаблон:Mvar равна среднему значению всех значений взаимной информации между признаком Шаблон:Math и признаком Шаблон:Math:

Критерий минимальной избыточности-максимальной релевантности (Шаблон:Lang-en, mRMR) является комбинацией двух мер, заданных выше и определённой как:

<math>\mathrm{mRMR}= \max_{S}

\left[\frac{1}{|S|}\sum_{f_{i}\in S}I(f_{i};c) - \frac{1}{|S|^{2}}\sum_{f_{i},f_{j}\in S}I(f_{i};f_{j})\right].</math>

Предположим, что имеется полный набор из Шаблон:Mvar признаков. Пусть Шаблон:Math будет индикаторной функцией вхождения в множество Шаблон:Math, так что Шаблон:Math отражает присутствие, а Шаблон:Math отражает отсутствие признака Шаблон:Math в глобальном оптимальном наборе признаков. Пусть <math>c_i=I(f_i;c)</math> и <math>a_{ij}=I(f_i;f_j)</math>. Формула выше может теперь быть переписана как задача оптимизации:

<math>\mathrm{mRMR}= \max_{x\in \{0,1\}^{n}}

\left[\frac{\sum^{n}_{i=1}c_{i}x_{i}}{\sum^{n}_{i=1}x_{i}} - \frac{\sum^{n}_{i,j=1}a_{ij}x_{i}x_{j}} {(\sum^{n}_{i=1}x_{i})^{2}}\right].</math>

Алгоритм mRMR является аппроксимацией теоретически оптимального алгоритма отбора признаков с максимальной зависимостью, который максимизирует взаимную информацию между совместным распределением выбранных признаков и классификационной переменной. Так как mRMR аппроксимирует задачу комбинаторной оценки серией существенно меньших задач, каждая из которых использует только две переменные, он использует попарные совместные вероятности, которые более устойчивы. В некоторых ситуациях алгоритм может недооценить полезность признаков, так как он не имеет возможности измерить взаимосвязь между признаками, которая может увеличить значимость. Это может привести к плохой производительностиШаблон:Sfn, если признаки по отдельности бесполезны, но становятся значимыми в комбинации (патологический случай найден, когда класс является Шаблон:Не переведено 5 признаков). В общем случае алгоритм более эффективен (в терминах количества требуемых данных), чем теоретически оптимальный выбор максимальной зависимости, всё же даёт набор признаков с небольшой попарной избыточностью.

Алгоритм mRMR является представителем большого класса методов фильтров, которые балансируют различным образом между значимостью и избыточностьюШаблон:Sfn Шаблон:Sfn.

Квадратичное программирование для отбора признаков

Алгоритм mRMR является типичным примером инкрементальной жадной стратегии для отбора признаков — как только признак выбран, он не может быть удалён из выборки на последующих шагах. В то время как mRMR можно оптимизировать с помощью плавающего поиска для сокращения некоторых признаков, его можно переформулировать как глобальную оптимизационную задачу квадратичного программирования Шаблон:Sfn:

<math>

\mathrm{QPFS}: \min_\mathbf{x} \left\{ \alpha \mathbf{x}^T H \mathbf{x} - \mathbf{x}^T F\right\} \quad \ \sum_{i=1}^n x_i=1, x_i\geqslant 0 </math>,

где <math>F_{n\times1}=[I(f_1;c),\ldots, I(f_n;c)]^T</math> является вектором значимости признаков в предположении, что имеется всего Шаблон:Mvar признаков, <math>H_{n\times n}=[I(f_i;f_j)]_{i,j=1\ldots n}</math> является матрицей попарной значимости, а <math>\mathbf{x}_{n\times 1}</math> представляет относительные веса признаков. Задача QPFS решается методами квадратичного программирования. Было показано, что QFPS смещена в направлении признаков с меньшей энтропиейШаблон:Sfn вследствие самоизбыточности признака <math>I(f_i;f_i)</math> на диагонали матрицы Шаблон:Mvar.

Условная взаимная информация

Другая оценка, производная от взаимной информации, основана на условной значимостиШаблон:Sfn:

<math>

\mathrm{SPEC_{CMI}}: \max_{\mathbf{x}} \left\{\mathbf{x}^T Q \mathbf{x}\right\} \quad \ \|\mathbf{x}\|=1, x_i\geq 0, </math>

где <math>Q_{ii}=I(f_i;c)</math> и <math>Q_{ij}=I(f_i;c|f_j), i\ne j</math>.

Преимущество Шаблон:Math заключается в том, что оно может быть решено просто путём нахождения доминирующего собственного вектора Шаблон:Mvar. Шаблон:Math обрабатывает также для признаков взаимосвязи второго порядка.

Совместная взаимная информация

При изучении различных оценок Браун, Поукок, Чжао и ЛуханШаблон:Sfn рекомендовали совместную взаимную информациюШаблон:Sfn в качестве хорошей оценки для отбора признаков. Оценка пытается найти признак, который добавляет наибольшую новую информацию к уже отобранным признакам, чтобы избежать избыточность. Оценка формулируется следующим образом:

<math> \begin{align} JMI(f_i) &= \sum_{f_j \in S} (I(f_i;c) + I(f_i;c|f_j)) \\

        &= \sum_{f_j \in S} \bigl[ I (f_j;c) + I (f_i;c) - \bigl(I (f_i;f_j) - I (f_i;f_j|c)\bigr)\bigr]

\end{align}. </math>

Оценка использует условную взаимную информацию и взаимную информацию для оценки избыточности между уже отобранными признаками (<math> f_j \in S </math>) и исследуемым признаком (<math>f_i</math>).

Выбор признаков на основе критерия независимости Lasso Гильберта — Шмидта

Для данных высокой размерности и небольших данных (например, размерность > <math>10^5</math> и размер выборки < <math>10^3</math>), полезным является критерий независимости Lasso Гильберта — Шмидта (HSIC Lasso)Шаблон:Sfn. Задача оптимизации HSIC Lasso задаётся как

<math>

\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\sum_{k,l=1}^n x_k x_l {\mbox{HSIC}}(f_k,f_l) - \sum_{k=1}^n x_k {\mbox{HSIC}}(f_k,c) + \lambda \|\mathbf{x}\|_1, \quad \ x_1,\ldots, x_n \geqslant 0 </math>,

где <math>{\mbox{HSIC}}(f_k,c) =\mbox{tr}(\bar{\mathbf{K}}^{(k)} \bar{\mathbf{L}})</math> является ядерной мерой независимости, называемой (эмпирическим) критерием независимости Гильберта — Шмидта (Шаблон:Lang-en, HSIC), <math>\mbox{tr}(\cdot)</math> обозначает след, <math>\lambda</math> является параметром регуляризации, <math>\bar{\mathbf{K}}^{(k)}=\mathbf{\Gamma} \mathbf{K}^{(k)} \mathbf{\Gamma}</math> и <math>\bar{\mathbf{L}}=\mathbf{\Gamma} \mathbf{L} \mathbf{\Gamma}</math> являются входными и выходными центрированными матрицами Грама, <math>K^{(k)}_{i,j}=K(u_{k,i},u_{k,j})</math> и <math>L_{i,j}=L(c_i,c_j)</math> являются матрицами Грама, <math>K(u,u')</math> и <math>L(c,c')</math> являются ядерными функциями, <math>\mathbf{\Gamma}=\mathbf{E}_m - \frac{1}{m}\mathbf{1}_m \mathbf{1}_m^T</math> является центрированной матрицей, <math>\mathbf{E}_m</math> является Шаблон:Mvar-мерной единичной матрицей (Шаблон:Mvar: число элементов выборки), <math>\mathbf{1}_m</math> является Шаблон:Mvar-мерным вектором со всеми единицами, а <math>\|\cdot\|_{1}</math> является <math>\ell_1</math>-нормой. HSIC всегда принимает неотрицательное значение и равно нулю тогда и только тогда, когда две случайные переменные статистически независимы при применении универсального производящего ядра, такого как гауссово ядро.

HSIC Lasso можно записать как:

<math>

\mathrm{HSIC_{Lasso}}: \min_{\mathbf{x}} \frac{1}{2}\left\|\bar{\mathbf{L}} - \sum_{k=1}^{n} x_k \bar{\mathbf{K}}^{(k)} \right\|^2_{F} + \lambda \|\mathbf{x}\|_1, \quad \ x_1,\ldots,x_n \geqslant 0 </math>,

где <math>\|\cdot\|_{F}</math> является нормой Фробениуса. Задача оптимизации является задачей Lasso, а потому она может быть эффективно решена с помощью современных методов решения Lasso, таких как двойственный Шаблон:Не переведено 5.

Отбор признаков на основе корреляции

Отбор признаков на основе меры корреляции (Шаблон:Lang-en, CFS) оценивает подмножества признаков на базе следующей гипотезы: «Хорошие поднаборы признаков содержат признаки, сильно коррелирующие с классификацией, но не коррелирующие друг с другом»Шаблон:Sfn Шаблон:Sfn. Следующее равенство даёт оценку поднабора признаков S, состоящего из k признаков:

<math> \mathrm{Merit}_{S_{k}}=\frac{k\overline{r_{cf}}}{\sqrt{k+k(k-1)\overline{r_{ff}}}}.</math>

Здесь <math> \overline{r_{cf}} </math> является средним значением всех корреляций признак-классификация, а <math> \overline{r_{ff}} </math> является средним всех корреляций признак-признак. Критерий CFS определяется следующим образом:

<math>\mathrm{CFS}=\max_{S_k}

\left[\frac{r_{c f_1}+r_{c f_2}+\cdots+r_{c f_k}} {\sqrt{k+2(r_{f_1 f_2}+\cdots+r_{f_i f_j}+ \cdots + r_{f_k f_1 })}}\right].</math>

Переменные <math>r_{cf_{i}}</math> и <math>r_{f_{i}f_{j}}</math> являются корреляциями, но не обязательно коэффициентами корреляции Пирсона или Шаблон:Не переведено 5. Диссертация Марка Холла не использует ни одну из них, но использует три различных меры связанности, минимальную длину описания (Шаблон:Lang-en, MDL), симметричную неопределённость и Шаблон:Не переведено 5.

Пусть x_i будет индикаторной функцией вхождения в множество для признака f_i. Тогда формула выше может быть переписана как задача оптимизации:

<math>\mathrm{CFS}=\max_{x\in \{0,1\}^{n}}

\left[\frac{(\sum^{n}_{i=1}a_{i}x_{i})^{2}} {\sum^{n}_{i=1}x_i + \sum_{i\neq j} 2b_{ij} x_i x_j }\right].</math>

Комбинаторные задачи выше являются, фактически, смешанными 0-1 задачами линейного программирования, которые могут быть решены с помощью алгоритма ветвей и границ Шаблон:Sfn.

Регуляризованные деревья

Было показано, что признаки из дерева решений или ансамбли деревьев избыточны. Недавний метод с названием «регуляризованное дерево»Шаблон:Sfn может быть использован для выбора поднабора признаков. Регуляризованные деревья штрафуются с помощью переменной, подобной переменным, выбранным на предыдущих узлах дерева для расщепления текущего узла. Для регуляризованных деревьев нужно строить только одну модель (иди один ансамбль деревьев), а потому вычислительно алгоритм эффективен.

Регуляризованные деревья естественным образом работают с численными и категорийными признаками, взаимодействиями и нелинейностями. Они инвариантны относительно масштаба атрибутов (единиц) и нечувствительны к выбросам, а потому требуют малой предварительной обработки данных, такой как Шаблон:Не переведено 5. Регуляризованный случайный лес (Шаблон:Lang-en, RRF)^[1] является одним из типов регуляризованных деревьев. Управляемый RRF является улучшенным методом RRF, который управляется оценкой важности из обычного случайного леса.

Обзор методов метаэвристики

Метаалгоритм (или метаэвристика) является общим описанием алгоритма, предназначенного для решения трудных (типично, NP-трудных задач) задач оптимизации для которых не имеется никаких методов решения. Обычно метаалгоритм является стохастическим алгоритмом, стремящимся достичь глобального оптимума. Есть много метаалгоритмов от простого локального поиска до сложного алгоритма глобального поиска.

Основные принципы

Методика отбора признаков обычно представлены тремя классами по тому, как они комбинируют алгоритмы выбора и построения модели.

Метод фильтров

Файл:Filter Methode.png

Метод фильтров для отбора признаков

Методы фильтров выбирают переменные независимо от модели. Они базируются только на общих признаках, таких как корреляция переменной с предсказанием. Методы фильтров подавляют наименее интересные переменные. Другие переменные будут частью классификации или модели регрессии, использованной для классификации или предсказания. Эти методы очень эффективны по времени вычисления и устойчивы к переобучениюШаблон:Sfn.

Однако, методы фильтров стремятся к выбору избыточных переменных, поскольку они не учитывают связь между переменными. По этой причине эти методы главным образом используются как методы предварительной обработки.

Метод обёртывания

Файл:Feature selection Wrapper Method.png

Метод обёртывания для отбора признаков

Методы обёртывания оценивают поднаборы переменных и позволяют, в отличие от подходов фильтрации, обнаружить возможную взаимосвязь между переменнымиШаблон:Sfn. Два главных недостатка этих методов:

Увеличивается риск переобучения, когда число наблюдений недостаточно.
Существенное время вычисления, когда число переменных велико.

Метод вложения

Файл:Feature selection Embedded Method.png

Метод вложения для отбора признаков

Методы вложения были предложены как попытка комбинации преимуществ двух предыдущих методов. Обучающий алгоритм имеет преимущество собственного процесса выбора переменной и осуществляет выбор признаков и классификацию одновременно.

Приложение метаэвристики отбора признаков

Ниже обзор приложений метаалгоритмов отбора признаков, использованных в литературе. Обзор был приведён в тезисах Джулии ХэммонШаблон:Sfn.

Приложение	Алгоритм	Подход	классификатор	Шаблон:Не переведено 5	Ссылка
ОНП	Выбор признаков с помощью похожести признаков	Фильтр		r²	Фыонг 2005Шаблон:Sfn
ОНП	Генетический алгоритм	Обёртка	Decision Tree	Правильность классификации (10-кр)	Шах, Кусиак 2004Шаблон:Sfn
ОНП	Поиск восхождением к вершине	Фильтр + Обёртка	Наивный байесовский классификатор	Предсказочная остаточная суммаквадртаов	Лон 2007Шаблон:Sfn
ОНП	Алгоритм имитации отжига		Наивный байесовский классификатор	Правильность классификации (5-кр)	Устункар 2011Шаблон:Sfn
Segments parole	Алгоритм муравьиной колонии	Обёртка	Искусственная нейронная сеть	Шаблон:Не переведено 5	Аль-ани 2005
Marketing	Алгоритм имитации отжига	Обёртка	Регрессия	AIC, r²	Мейри 2006Шаблон:Sfn
Economy	Алгоритм имитации отжига, Генетический алгоритм	Обёртка	Регрессия	БИК	Капетаниос 2005Шаблон:Sfn
Spectral Mass	Генетический алгоритм	Обёртка	Множественная линейная регрессич, Шаблон:Не переведено 5	Шаблон:Не переведено 5 предсказания	Бродхёрст 2007Шаблон:Sfn
Spam	Бинарный метод роя частиц + Шаблон:Не переведено 5	Обёртка	Дерево решений	взвешенная цена	Джанг 2014Шаблон:Sfn
Микроматрица	Поиск с запретами + Метод роя частиц	Обёртка	Метод опорных векторов, Метод k-ближайших соседей	Евклидова метрика	Чанг, Янг 2009Шаблон:Sfn
Микроматрица	PSO + Генетический алгоритм	Обёртка	Метод опорных векторов	Правильность классификации (10-кр)	Альба 2007Шаблон:Sfn
Микроматрица	Генетический алгоритм + Шаблон:Не переведено 5	Вложенный	Метод опорных векторов	Правильность классификации (10-кр)	Дювал 2009Шаблон:Sfn
Микроматрица	Обёртка	Регрессия	Апостериорная вероятность	Ханс, Дорба, Вест 2007Шаблон:Sfn
Микроматрица	Генетический алгоритм	Обёртка	Метод k-ближайших соседей	Правильность классификации (Перекрёстная проверка с исключением)	Эйткен 2005Шаблон:Sfn
Микроматрица	Шаблон:Не переведено 5	Обёртка	Метод k-ближайших соседей	Правильность классификации (перекрёстная проверка с исключением)	Ох, Мун 2004Шаблон:Sfn
Микроматрица	Генетический алгоритм	Обёртка	Метод опорных векторов	Чувствительность и специфичность	Сюань 2011Шаблон:Sfn
Микроматрица	Генетический алгоритм	Обёртка	Попарный метод опорных векторов	Правильность классификации (перекрёстная проверка с исключением)	Пэн 2003Шаблон:Sfn
Микроматрица	Генетический алгоритм	Вложенный	Метод опорных векторов	Правильность классификации (10-кр)	Эрнандес 2007Шаблон:Sfn
Микроматрица	Генетический алгоритм	Hybrid	Метод опорных векторов	Правильность классификации (перекрёстная проверка с исключением)	Уэрта 2006Шаблон:Sfn
Микроматрица	Генетический алгоритм		Метод опорных векторов	Правильность классификации (10-кр)	Муни, Пал, Дас 2006Шаблон:Sfn.
Микроматрица	Генетический алгоритм	Обёртка	Метод опорных векторов	EH-DIALL, CLUMP	Журден 2011Шаблон:Sfn.
Болезнь Альцгеймера	Шаблон:Не переведено 5	Фильтр	ядерный метод опорных векторов	Правильность классификации (10-кр)	Чжан 2015Шаблон:Sfn
Компьютерное зрение	Бесконечный отбор признаков	Фильтр	Независим	Шаблон:Не переведено 5, ROC-площадь под кривой	Роффо 2015Шаблон:Sfn
Микроматрицы	Eigenvector Centrality FS	Фильтр	Независим	Средняя точность, Точность, ROC AUC	Роффо, Мельци 2016Шаблон:Sfn
XML	Симметричный Тау-алгоритм	Фильтр	Структурная ассоциативная классификация	Точность, Покрытие	Шахарани, Хаджич 2014

Выбор признаков, вложенных в алгоритмы обучения

Некоторые обучающие алгоритмы осуществляют отбор признаков как часть алгоритма:

Техники <math>l_1</math>-регуляризации, такие как разреженная регрессия, LASSO, и <math>l_1</math>-SVM
Регуляризованные деревьяШаблон:Sfn, например, регуляризованный случайный лес, реализованный в пакете RRF^[1]
Дерево решений Шаблон:Sfn
Шаблон:Не переведено 5
Случайный мультиномиальный логит (Шаблон:Lang-en, RMNL)
Автокодирующая сеть с узким уровнем
Выделение Шаблон:Не переведено 5 признаковШаблон:Sfn Шаблон:Sfn Шаблон:Sfn
Выбор признаков на основе локального обученияШаблон:Sfn. По сравнению с традиционными методами данный метод не использует эвристического поиска, может легко справляться с задачами с большим количеством классов, и работает как на линейных, так и нелинейных задачах. Метод также поддержан с теоретической стороны. Численные эксперименты показали, что метод может достичь близкое к оптимальному решение даже в случае, когда данные содержат более миллиона незначимых признаков.

См. также

Примечания

Шаблон:Примечания

Литература

Ссылки

Feature Selection Package, Arizona State University (Matlab Code)
NIPS challenge 2003 (see also NIPS)
Naive Bayes implementation with feature selection in Visual Basic Шаблон:Wayback (includes executable and source code)
Minimum-redundancy-maximum-relevance (mRMR) feature selection program
FEAST (Open source Feature Selection algorithms in C and MATLAB)

Шаблон:Rq Шаблон:Машинное обучение

↑ ^1,0 ^1,1 RRF: Regularized Random Forest Шаблон:Wayback, пакет на языке R в репозитории Comprehensive R Archive Network (CRAN)

[RRF-1] 1,0 ^1,1 RRF: Regularized Random Forest Шаблон:Wayback, пакет на языке R в репозитории Comprehensive R Archive Network (CRAN)

[1]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Отбор признаков

Содержание

Введение

Выбор поднабора

Критерий оптимальности

Структурное обучение

Механизмы отбора признаков на основе информационной теории

Выбор признаков на основе минимальной избыточности-максимальной релевантности

Квадратичное программирование для отбора признаков

Условная взаимная информация

Совместная взаимная информация

Выбор признаков на основе критерия независимости Lasso Гильберта — Шмидта

Отбор признаков на основе корреляции

Регуляризованные деревья

Обзор методов метаэвристики

Основные принципы

Метод фильтров

Метод обёртывания

Метод вложения

Приложение метаэвристики отбора признаков

Выбор признаков, вложенных в алгоритмы обучения

См. также

Примечания

Литература

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты