Русская Википедия:Обучение с частичным привлечением учителя

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Обучение с частичным привлечением учителя (Шаблон:Lang-en) (также полуавтоматическое обучение или частичное обучение) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Обучение с частичным привлечением учителя занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для перевода звуковой дорожки в текст) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

Как и в рамках обучения с учителем, нам дается множество <math>l</math> независимых одинаково распределенных примеров <math>x_1,\dots,x_l \in X</math> с соответствующими пометками <math>y_1,\dots,y_l \in Y</math>. Кроме того, нам дано <math>u</math> неразмеченных примеров <math>x_{l+1},\dots,x_{l+u} \in X</math>. Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучение может принадлежать к трансдуктивному обучению[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных <math>x_{l+1},\dots,x_{l+u}</math>. Целью индукции является выведение правильного отображения из <math>X</math> в <math>Y</math>.

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.[1]

Предположение плавности

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход к самообучению является наиболее ранним.[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения [en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).[6]

Подходы к полуавтоматическому обучению

Генеративные модели

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить <math>p(x|y)</math>, распределение точек данных для каждого класса. Вероятность <math>p(y|x)</math> такая, что данная точка <math>x</math> имеет метку <math>y</math>, будет пропорциональной <math>p(x|y)p(y)</math> по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о <math>p(x)</math>), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму <math>p(x|y,\theta)</math> , параметризованную вектором <math>\theta</math> . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде <math>p(x,y|\theta)=p(y|\theta)p(x|y,\theta)</math> с помощью цепного правила. Каждый вектор <math>\theta</math> связан с функцией <math>f_\theta(x) = \underset{y}{\operatorname{argmax}}\ p(y|x,\theta)</math>. Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью <math>\lambda</math>:

<math>\underset{\Theta}{\operatorname{argmax}}\left( \log p(\{x_i,y_i\}_{i=1}^l | \theta) + \lambda \log p(\{x_i\}_{i=l+1}^{l+u}|\theta)\right) </math>[6]

Разделение низкой плотности

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение разделяющей поверхности с максимальным зазором в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение разделяющей поверхности имеет максимальный зазор в сравнении со всеми данными. В дополнение к стандартной петле потери <math>(1-yf(x))_+</math> для размеченных данных, функция потерь <math>(1-|f(x)|)_+</math> вводится и для неразмеченных данных, обозначив <math>y=\operatorname{sign}{f(x)}</math>. ТМОВ потом выбирает <math>f^*(x) = h^*(x) + b</math> с гильбертова пространства воспроизводимого ядра <math>\mathcal{H}</math> путем минимизации регуляризованого эмпирического риска[en]:

<math>f^* = \underset{f}{\operatorname{argmin}}\left(

\displaystyle \sum_{i=1}^l(1-y_if(x_i))_+ + \lambda_1 ||h||_\mathcal{H}^2 + \lambda_2 \sum_{i=l+1}^{l+u} (1-|f(x_i)|)_+ \right) </math> Точное решение является неразрешимым из-за невыпуклого члена <math>(1-|f(x)|)_+</math>, поэтому исследования сосредоточены на поиске полезных приближений.[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её <math>k</math> ближайшими соседями или с примерами на расстоянии в пределах <math>\epsilon</math>. Вес <math>W_{ij}</math> ребра между <math>x_i</math>и <math>x_j</math> устанавливается равным <math>e^{\frac{-||x_i-x_j||^2}{\epsilon}}</math>.

В рамках регуляризации многообразия[8] [9] граф служит как представитель многообразия. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

<math>\underset{f\in\mathcal{H}}{\operatorname{argmin}}\left(

\frac{1}{l}\displaystyle\sum_{i=1}^l V(f(x_i),y_i) + \lambda_A ||f||^2_\mathcal{H} + \lambda_I \int_\mathcal{M}||\nabla_\mathcal{M} f(x)||^2dp(x) \right) </math>[6] где <math>\mathcal{H}</math> — это гильбертово пространство воспроизводимого ядра, а <math>\mathcal{M}</math> — многовид данным. Параметры регуляризации <math>\lambda_A</math> и <math>\lambda_I</math> контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа[en] , где и вектор, получаем:

<math>\mathbf{f}^T L \mathbf{f} = \displaystyle\sum_{i,j=1}^{l+u}W_{ij}(f_i-f_j)^2 \approx \int_\mathcal{M}||\nabla_\mathcal{M} f(x)||^2dp(x)</math>

Эвристические подходы

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.[12]

Полуавтоматическое обучение в человеческом восприятии

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.[15][16]

См. также

Источники

Шаблон:Примечания

Ссылки

Шаблон:Машинное обучение

  1. 1,0 1,1 Шаблон:Книга
  2. Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
  3. Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
  4. Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
  5. 5,0 5,1 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
  6. 6,0 6,1 6,2 6,3 Zhu, Xiaojin.
  7. Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
  8. Шаблон:Статья
  9. M. Belkin, P. Niyogi, V. Sindhwani.
  10. Шаблон:Статья
  11. Шаблон:Статья
  12. Шаблон:Книга
  13. Шаблон:Книга
  14. Шаблон:Статья
  15. Шаблон:Статья
  16. Шаблон:Статья