Русская Википедия:Переобучение

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Файл:Overfitting.svg
Рис 1. Зелёная разделительная линия показывает переобученную модель, а чёрная линия — регуляризированную модель. Хотя зелёная линия лучше соответствует образцам, по которым проходило обучение, классификация по зелёной линии очень зависит от конкретных данных, и скорее всего новые данные будут плохо соответствовать классификации по зелёной линии и лучше — классификации по чёрной линии.
Файл:Overfitted Data.png
Рис 2. Сигнал с шумом (близкий к линейному) аппроксимируется линейной функцией и полиномом. Хотя полином гарантирует идеальное совпадение, линейная аппроксимация лучше генерализирует закономерность и будет давать лучшие предсказания.

Переобучение (переподгонка, пере- в значении «слишком», Шаблон:Lang-en) в машинном обучении и статистике — явление, когда построенная модель хорошо объясняет примеры из обучающей выборки, но относительно плохо работает на примерах, не участвовавших в обучении (на примерах из тестовой выборки).

Это связано с тем, что при построении модели («в процессе обучения») в обучающей выборке обнаруживаются некоторые случайные закономерности, которые отсутствуют в генеральной совокупности.

Иными словами, модель запоминает огромное количество всех возможных примеров вместо того, чтобы научиться подмечать особенности.

Даже тогда, когда обученная модель не имеет чрезмерного количества параметров, можно ожидать, что эффективность её на новых данных будет ниже, чем на данных, использовавшихся для обучения[1]. В частности, значение коэффициента детерминации будет сокращаться по сравнению с исходными данными обучения.

Способы борьбы с переобучением зависят от метода моделирования и способа построения модели. Например, если строится дерево принятия решений, то можно обрезать некоторые его ветки в процессе построения.

Методы предотвращения переобучения

Для того, чтобы избежать чрезмерной подгонки, необходимо использовать дополнительные методы, например:

которые могут указать, когда дальнейшее обучение больше не ведёт к улучшению оценок параметров. В основе этих методов лежит явное ограничение на сложность моделей, или проверка способности модели к обобщению путём оценки её эффективности на множестве данных, не использовавшихся для обучения и считающихся приближением к реальным данным, к которым модель будет применяться.

Примеры

Известен анекдот, хорошо иллюстрирующий обсуждаемую тему.

У первоклассницы спросили, сколько будет 1+1. Школьница мгновенно ответила. Спросили, сколько будет 28+59. Школьница мгновенно ответила. Спросили, сколько будет 16548+499875. Школьница мгновенно ответила.

- Девочка, как ты так быстро считаешь?

- Я не умею считать, я заранее выучила все суммы от -∞ до +∞

См. также

Примечания

Шаблон:Примечания

Шаблон:Rq

  1. Everitt B.S. (2002) Cambridge Dictionary of Statistics, CUP. ISBN 0-521-81099-X (entry for «Shrinkage»)