Русская Википедия:Обучение с частичным привлечением учителя

Обучение с частичным привлечением учителя (Шаблон:Lang-en) (также полуавтоматическое обучение или частичное обучение) — способ машинного обучения, разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Обучение с частичным привлечением учителя занимает промежуточную позицию между обучением без учителя (без привлечения каких-либо размеченных данных для тренировки) и обучением с учителем (с привлечением лишь размеченных данных).

Многие исследователи машинного обучения обнаружили, что неразмеченные данные, при использовании в сочетании с небольшим количеством размеченных данных, могут значительно улучшить точность обучения.

Задание размеченных данных для задачи обучения часто требует квалифицированного человека (например, для перевода звуковой дорожки в текст) или физического эксперимента (например, для определения 3D структуры белка или выявления наличия нефти в определенном регионе). Поэтому затраты на разметку данных могут сделать процесс обучения с использованием лишь размеченных данных невыполнимым, в то время как процесс задания неразмеченных данных не является очень затратным. В таких ситуациях, полуавтоматическое обучения может иметь большое практическое значение. Такое обучение также представляет интерес в сфере машинного обучения и как модель для человеческого обучения.

Задача обучения

Как и в рамках обучения с учителем, нам дается множество <math>l</math> независимых одинаково распределенных примеров <math>x_1,\dots,x_l \in X</math> с соответствующими пометками <math>y_1,\dots,y_l \in Y</math>. Кроме того, нам дано <math>u</math> неразмеченных примеров <math>x_{l+1},\dots,x_{l+u} \in X</math>. Цель полуавтоматической обучения заключается в том, чтобы использовать эту комбинированную информацию для достижения лучших результатов производительности классификации, которую можно получить или путем отбрасывания неразмеченных данных и использование обучения с учителем, или путем отбрасывания меток и использование обучения без учителя.

Полуавтоматическое обучение может принадлежать к трансдуктивному обучению^[en] или индуктивного обучения. Целью трансдуктивного обучения является выведение правильных меток только для неразмеченных данных <math>x_{l+1},\dots,x_{l+u}</math>. Целью индукции является выведение правильного отображения из <math>X</math> в <math>Y</math>.

Мы можем представлять задачу обучения как экзамен, а размеченные данные — как несколько примеров, которые учитель решил в классе. Учитель также предоставляет набор нерешенных задач. В постановке трансдуктивного обучения, эти нерешенные задачи является экзаменом, который забирают домой, и вы хотите хорошо его составить в целом. В постановке индуктивного обучения, эти практические задачи являются подобными тем, с которыми вы столкнетесь на экзамене в классе. Необязательно (и, согласно принципу Вапника^[en], неблагоразумно) проводить трансдуктивне обучения путем логического вывода правила классификации для всех входных данных. Однако, на практике, алгоритмы, формально предназначенные для трансдукции или индукции, часто используются как взаимозаменяемые.

Предположения, которые используются в полуавтоматическом обучении

Для того, чтобы использовать неразмеченные данные, нужно присвоить некоторую структуру для основного распределения данных. Алгоритмы полуавтоматического обучения используют по крайней мере одно из таких предположений.^[1]

Предположение плавности

Точки, которые лежат близко друг от друга, размечены одинаково с большей вероятностью. Такое же предположение в основном используется и в обучении с учителем и дает преимущество в использовании геометрически простых решений. В случае полуавтоматического обучения, предположение плавности дополнительно дает преимущество для разграничения в регионах с низкой плотностью, где меньше точек, которые расположены близко друг от друга, но разных классов.

Предположение кластеризованности

Данные, как правило, образуют дискретные кластеры, и точки из одного кластера размечены одинаково с большей вероятностью (хотя данные, которые используют одинаковые метки, могут быть расположены в нескольких различных кластерах). Это особый случай предположения плавности, который приводит к обучение признаков используя алгоритмы кластеризации.

Предположение избыточности данных

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность.

Например, человеческий голос контролируется несколькими голосовыми связками,^[2] а изображение различных выражений лица контролируются несколькими мышцами. В этих случаях удобнее использовать генерирующее пространство, чем пространство всех возможных акустических волн или изображений, соответственно.

История

Эвристический подход к самообучению является наиболее ранним.^[1] Он начал применяться с 1960-х годов (см., например, Scudder 1965)^[3]).

Основы трансдуктивного обучения были изложены Владимиром Вапником в 1970-х годах.^[4] В 1970-е годы также появился интерес к индуктивному обучению с использованием генеративных моделей. Применение приближенного правильного обучения ^[en] для полуавтоматического обучения на основе модели гауссовой смеси было продемонстрировано Ратсаби и Венкатешем в 1995 году.^[5]

Полуавтоматическое обучения в последнее время становится все более популярным и растет его актуальность в связи с целым рядом задач, для которых доступно огромное количество неразмеченных данных (например, текст веб страниц, последовательности белков или изображения. Обзор последних работ в этой области см. Чжу (2008).^[6]

Подходы к полуавтоматическому обучению

Генеративные модели

Генеративные подходы к статистическому изучению в первую очередь стремятся оценить <math>p(x|y)</math>, распределение точек данных для каждого класса. Вероятность <math>p(y|x)</math> такая, что данная точка <math>x</math> имеет метку <math>y</math>, будет пропорциональной <math>p(x|y)p(y)</math> по теореме Байеса. Полуавтоматическое обучения с использованием генеративных подходов можно рассматривать либо как расширение обучения с учителем (классификация и информация о <math>p(x)</math>), или как расширение обучения без учителя (кластеризация и некоторые метки).

Генеративные модели предполагают, что распределения принимают определенную форму <math>p(x|y,\theta)</math> , параметризованную вектором <math>\theta</math> . Если эти предположения являются неправильными, то неразмеченные данные могут фактически снизить точность решения по сравнению с тем, которое было бы получено только с размеченных данных.^[7] Однако, если эти предположения верны, то неразмеченные данные обязательно повысят результативность.^[5]

Неразмеченные данные распределены согласно смеси индивидуально-классовых разделений. Для того, чтобы распределение смеси из неразмеченных данных подлежал изучению, эти данные должны быть узнаваемыми, то есть различные параметры должны приводить к различным итоговых распределений. Распредели гауссовой смеси являются узнаваемыми и обычно используются в генеративных моделях.

Параметризованный совместное распределение можно записать в виде <math>p(x,y|\theta)=p(y|\theta)p(x|y,\theta)</math> с помощью цепного правила. Каждый вектор <math>\theta</math> связан с функцией <math>f_\theta(x) = \underset{y}{\operatorname{argmax}}\ p(y|x,\theta)</math>. Затем параметр выбирается на основе подгонки как к размеченных там и до неразмеченных данных, уравновешенных с помощью <math>\lambda</math>:

<math>\underset{\Theta}{\operatorname{argmax}}\left( \log p(\{x_i,y_i\}_{i=1}^l | \theta) + \lambda \log p(\{x_i\}_{i=l+1}^{l+u}|\theta)\right) </math>^[6]

Разделение низкой плотности

Это ещё один важный класс методов, который пытается разграничить регионы, в которых есть несколько точек с данными (размеченными или неразмеченными). Одним из наиболее часто используемых алгоритмов является трансдуктивный метод опорных векторов, или ТМОВ (который, несмотря на название, может также быть использованным для индуктивного обучения). В то время как метод опорных векторов для обучения с учителем ищет решение разделяющей поверхности с максимальным зазором в размеченных данных, целью ТМОВ является обозначение неразмеченных данных таким образом, что решение разделяющей поверхности имеет максимальный зазор в сравнении со всеми данными. В дополнение к стандартной петле потери <math>(1-yf(x))_+</math> для размеченных данных, функция потерь <math>(1-|f(x)|)_+</math> вводится и для неразмеченных данных, обозначив <math>y=\operatorname{sign}{f(x)}</math>. ТМОВ потом выбирает <math>f^*(x) = h^*(x) + b</math> с гильбертова пространства воспроизводимого ядра <math>\mathcal{H}</math> путем минимизации регуляризованого эмпирического риска^[en]:

<math>f^* = \underset{f}{\operatorname{argmin}}\left(

\displaystyle \sum_{i=1}^l(1-y_if(x_i))_+ + \lambda_1 ||h||_\mathcal{H}^2 + \lambda_2 \sum_{i=l+1}^{l+u} (1-|f(x_i)|)_+ \right) </math> Точное решение является неразрешимым из-за невыпуклого члена <math>(1-|f(x)|)_+</math>, поэтому исследования сосредоточены на поиске полезных приближений.^[6]

Другие подходы, которые осуществляют распределение низкой плотности, включают в себя модели гауссова процесса, упорядочение информации, и минимизацию энтропии (из которых ТМОВ является частным случаем).

Методы на основе графов

Методы на основе графов для полуавтоматической обучения используют данные, представленные при помощи графа, с узлом для каждого размеченного или неразмеченного примера. Граф может быть построен с использованием знаний в предметной области или на основе сходства примеров. Два общих подхода включают соединение каждой точки данных с её <math>k</math> ближайшими соседями или с примерами на расстоянии в пределах <math>\epsilon</math>. Вес <math>W_{ij}</math> ребра между <math>x_i</math>и <math>x_j</math> устанавливается равным <math>e^{\frac{-||x_i-x_j||^2}{\epsilon}}</math>.

В рамках регуляризации многообразия^[8] ^[9] граф служит как представитель многообразия. Выражение добавляется к стандартной задаче регуляризации Тихонова для обеспечения гладкости решения относительно многовидності (в собственном пространстве задачи), а также окружающей входного пространства. Задачей минимизации становится:

<math>\underset{f\in\mathcal{H}}{\operatorname{argmin}}\left(

\frac{1}{l}\displaystyle\sum_{i=1}^l V(f(x_i),y_i) + \lambda_A ||f||^2_\mathcal{H} + \lambda_I \int_\mathcal{M}||\nabla_\mathcal{M} f(x)||^2dp(x) \right) </math>^[6] где <math>\mathcal{H}</math> — это гильбертово пространство воспроизводимого ядра, а <math>\mathcal{M}</math> — многовид данным. Параметры регуляризации <math>\lambda_A</math> и <math>\lambda_I</math> контролируют гладкость в близлежащих и внутренних пространствах соответственно. Граф используется для аппроксимации внутреннего регуляризующего члена. Определив матрицу Кирхгофа^[en] , где и вектор, получаем:

<math>\mathbf{f}^T L \mathbf{f} = \displaystyle\sum_{i,j=1}^{l+u}W_{ij}(f_i-f_j)^2 \approx \int_\mathcal{M}||\nabla_\mathcal{M} f(x)||^2dp(x)</math>

Эвристические подходы

Некоторые из методов полуавтоматического обучения не приспособлены для использования одновременно как размеченных так и неразмеченных данных, но зато могут привлекать неразмеченные данные для обучения с учителем. Например, размеченные и неразмеченные примеры могут информировать о способе представления, метрику, или ядра данных на первом шаге без учителя. Тогда обучение с учителем обрабатывает только размеченные примеры.

Самообучение — метод-обертка полуавтоматического обучения.^[10] Первоначально обучение с учителем обрабатывает только размеченные данные. Этот классификатор затем применяется к неразмеченным данным, чтобы сгенерировать больше размеченных примеров для обучения с учителем. В общем, можно быть уверенным, что только метки классификатора добавляются на каждом шагу.^[11]

Совместное обучение является расширением самообучения, при котором несколько классификаторов прорабатывают разные (в идеале, непересекающиеся) множества признаков и генерируют размеченные примеры друг для друга.^[12]

Полуавтоматическое обучение в человеческом восприятии

Человеческие ответы на формальные задачи полуавтоматического обучения принесли различные выводы относительно степени влияния неразмеченных данных (краткое изложение см.^[13]). Много задач естественного обучения также можно рассматривать как примеры полуавтоматического обучения. Большинство принципов человеческого обучения предусматривает небольшое количество прямых инструкций (например, разметка объектов родителями в детстве) в совокупности с огромным количеством неразмеченных примеров (например, наблюдения за объектами не называя или не считая их, или по крайней мере не описывая их).

Младенцы чувствительны к структуре неразмеченных данных, таких как изображения собак и кошек, или мужских и женских лиц.^[14] Недавние исследования обнаружили, что младенцы и дети учитывают не только доступные неразмеченные примеры, но и процесс отбора из них, в результате которого возникают размеченные примеры.^[15]^[16]

См. также

Обучение с учителем

Источники

Шаблон:Примечания

Ссылки

Шаблон:Машинное обучение

↑ ^1,0 ^1,1 Шаблон:Книга
↑ Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
↑ Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.
↑ Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.
↑ ^5,0 ^5,1 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.
↑ ^6,0 ^6,1 ^6,2 ^6,3 Zhu, Xiaojin.
↑ Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.
↑ Шаблон:Статья
↑ M. Belkin, P. Niyogi, V. Sindhwani.
↑ Шаблон:Статья
↑ Шаблон:Статья
↑ Шаблон:Книга
↑ Шаблон:Книга
↑ Шаблон:Статья
↑ Шаблон:Статья
↑ Шаблон:Статья

[Chapelle-1] 1,0 ^1,1 Шаблон:Книга

[StevensKN-2] Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2

[3] Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines.

[4] Вапник, В. Н., Червоненкис, А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с.

[Ratsaby-5] 5,0 ^5,1 Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information.

[survey-6] 6,0 ^6,1 ^6,2 ^6,3 Zhu, Xiaojin.

[7] Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers.

[8] Шаблон:Статья

[9] M. Belkin, P. Niyogi, V. Sindhwani.

[10] Шаблон:Статья

[11] Шаблон:Статья

[12] Шаблон:Книга

[ZhuGoldberg-13] Шаблон:Книга

[14] Шаблон:Статья

[15] Шаблон:Статья

[16] Шаблон:Статья

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.