Русская Википедия:Выбор статистической модели
Выбор модели — это задача выбора статистической модели из набора моделей-кандидатов по имеющимся данным. В простейшем случае рассматривается существующий набор данных. Однако задача может вовлекать планирование экспериментов, так что сбор данных связан с задачей выбора модели. Если заданы кандидаты в модели с одинаковой силой предсказания или объяснения, наиболее простая модель скорее всего будет лучшим выбором (бритва Оккама).
Кониси и КитагаваШаблон:Sfn утверждают: «Большинство задач при статистическом выводе можно считать задачами, связанными со статистическим моделированием». Вместе с тем, КоксШаблон:Sfn сказал: «Каким образом осуществлена трансляция от предметной задачи к статистической модели является наиболее критической частью анализа».
Выбор модели может также относиться к задаче выбора нескольких представляющих моделей из большого набора вычислительных моделей с целью принятия решения или оптимизации в условиях неопределённости.
Введение
В наиболее простых формах выбор модели является одной из фундаментальных задач научного поиска. Определение принципа, который объясняет ряд наблюдений, часто связан напрямую с математической моделью предсказания этих наблюдений. Например, когда Галилей осуществлял свои эксперименты с наклонной плоскостью, он демонстрировал, что движение шара идёт по параболе, предсказанной в его модели.
При бесконечном числе возможных механизмов и процессов, которые могут дать данные, как можно даже подступить к выбору лучшей модели? Математический подход обычно принимает решение среди набора кандидатов в модели. Этот набор должен быть выбран исследователем. Часто используются простые модели, такие как многочлены, по меньшей мере в начале. Бёрнем и АндерсенШаблон:Sfn подчёркивают в своей книге важность выбора моделей на основе научных принципов, таких как понимание феноменологических процессов или механизмов (например, химических реакций) для данных.
Когда множество кандидатов в модели выбрано, статистический анализ позволяет выбрать лучшую из этих моделей. Что означает слово лучшая, вопрос дискуссионный. Техника выбора хорошей модели будет балансировать между адекватностью модели и простотой. Более сложные модели способны лучше адаптироваться к данным (например, многочлен пятой степени может в точности представлять шесть точек), однако дополнительные параметры могут не представлять ничего полезного (возможно, эти шесть точек на самом деле случайным образом распределены вдоль прямой). Адекватность модели обычно определяется с помощью отношения правдоподобия или приближения к нему, что приводит к критерию хи-квадрат. Сложность в общем случае измеряется подсчётом числа параметров модели.
Техники выбора модели можно считать оценками некоторых физических величин, таких как вероятность того, что модель даст имеющиеся данные. Смещение и дисперсия являются важными показателями качества предсказателя. Часто рассматривается также показатель эффективности.
Стандартным примером выбора модели служит подбор кривой, где, по заданному набору точек и другим сведениям общего характера (например, когда точки являются результатом выборки независимых случайных величин), мы должны выбрать кривую, которая описывает функцию, генерирующую точки.
Методы для выбора множества кандидатов в модели
Критерии
Если заранее ограничиваться рассмотрением только моделей авторегрессии (AR), то есть полагать, что процесс Xt следует модели AR(k) с неизвестным истинным порядком k, то для определения k в таких ситуациях долгое время использовался[1]
- Информационный критерий Акаике (AIC), мера адекватности статистической модели. Впоследствии было выяснено, что оценка Акаике несостоятельна и асимптотически переоценивает (завышает) истинное значение k0 с ненулевой вероятностью[1].
Более предпочтительным является часто используемый в настоящее время[1]
- Байесовский информационный критерий (BIC), известный также как информационный критерий Шварца, статистический критерий выбора модели.
Несколько позднее был предложен[1]
- Шаблон:Не переведено 5, обладающий более быстрой сходимостью к истинному значению k0 при <math>T \to \infty</math>. Однако при небольших значениях T этот критерий недооценивает порядок авторегрессии.
Часто используется
Используются также следующие критерии
- Перекрёстная проверка
- Шаблон:Не переведено 5 (DIC), ещё один байесовский критерий выбора модели
- Критерий эффективности опознавания (Шаблон:Lang-en, EDC)
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5 (FIC), критерий выбора статистических моделей по их эффективности для заданного параметра
- Тест отношения правдоподобия, статистический тест, используемый для проверки ограничений на параметры статистических моделей, оцененных на основе выборочных данных.
- Шаблон:Не переведено 5. Считается, что для хорошей модели эта статистика должна принимать значения, близкие к числу параметров модели (включая свободный член)Шаблон:Sfn.
- Принцип минимальной длины описания (Алгоритмическая теория информации) — это формализация бритвы Оккама, в которой лучшая гипотеза (модель и её параметры) для данного набора данных это та, которая ведёт к лучшему сжиманию данных.
- Сообщение минимальной длины (Алгоритмическая теория информации)
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5. Цель пошаговой регрессии состоит в отборе из большого количества предикатов небольшой подгруппы переменных, которые вносят наибольший вклад в вариацию зависимой переменной.
- Шаблон:Не переведено 5 (WAIC), информационный критерий широкого применения
См. также
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Автоматическое машинное обучение
- Дилемма смещения–дисперсии
- Шаблон:Не переведено 5
- Поиск по сетке параметров
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Идентификация систем
- Бритва Оккама
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Моделирование
- Шаблон:Не переведено 5
Примечания
Литература
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга [книга цитируется более 38000 раз на Google Scholar]
- Шаблон:Статья (Перепечатано в 1965, Science 148: 754—759 [1] Шаблон:Doi)
- Шаблон:СтатьяШаблон:Недоступная ссылка
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
Шаблон:Метод наименьших квадратов и регрессионный анализ Шаблон:Rq