Русская Википедия:Критерий согласия Колмогорова

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Критерий согласия Колмогорова предназначен для проверки гипотезы о принадлежности выборки некоторому закону распределения, то есть проверки того, что эмпирическое распределение соответствует предполагаемой модели.

Критерий однородности Смирнова используется для проверки гипотезы о принадлежности двух независимых выборок одному закону распределения, то есть о том, что два эмпирических распределения соответствуют одному и тому же закону.

Эти критерии носят имена математиков Андрея Николаевича Колмогорова и Николая Васильевича Смирнова.

Критерий Смирнова о проверке гипотезы об однородности двух эмпирических законов распределения является одним из наиболее часто используемых непараметрических критериев.

Описание

Если в критерии <math>\chi^2</math> сопоставляются частоты двух распределений отдельно по каждому разряду, то здесь сопоставляются сначала частоты по первому разряду, потом по сумме первого и второго разрядов, потом по сумме первого, второго и третьего разрядов и т. д. Таким образом, каждый раз сопоставляются накопленные к данному разряду частоты.

Если различия между двумя распределениями существенны, то в какой-то момент разность накопленных частот достигнет критического значения, и различия можно будет признать статистически достоверными. В формулу критерия <math>\lambda</math>  включается эта разность. Чем больше эмпирическое значение <math>\lambda</math>, тем более существенными являются различия.

Статистика критерия Колмогорова

Пусть эмпирическая функция распределения (ЭФР) <math>F_n</math>, построенная по выборке <math>X=\left(X_1,\;\ldots,\;X_n\right)</math>, имеет вид:

<math>F_n(x)=\frac{1}{n}\sum_{i=1}^n I_{X_i\leqslant x},</math>

где <math>I_{X_i\leqslant x}</math> указывает, попало ли наблюдение <math>X_i</math> в область <math>(-\infty,\;x]</math>:

<math>I_{X_i\leqslant x}=\begin{cases}1, & X_i\leqslant x; \\ 0, & X_i>x.\end{cases}</math>

Выполняется проверка того, является ли выборка порождённой случайной величиной <math>\xi</math> с функцией распределения <math>F(x)</math>. Статистика критерия для эмпирической функции распределения <math>F_n(x)</math> определяется следующим образом:

<math>D_n=\sup_{x \in \mathbb{R}} |F_n(x)-F(x)|,</math>

где под <math>\sup</math> понимается супремум функции <math>{|F_n(x)-F(x)|}</math>.

Распределение статистики Колмогорова

Обозначим нулевую гипотезу <math>H_0</math>, как гипотезу о том, что выборка подчиняется распределению <math>F(X)\in C^1(\mathbb{X})</math>. Тогда по теореме Колмогорова для введённой статистики справедливо:

<math>\forall t>0\colon\lim_{n\to\infty}P(\sqrt{n}D_n\leqslant t)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j e^{-2j^2t^2}.</math>

Учтём, что критерий имеет правостороннюю критическую область.

Шаблон:Message box

Если <math>\alpha</math> достаточно близко к 1, то <math>K_\alpha</math> можно приблизительно рассчитать по формуле:

<math>K_\alpha\approx\sqrt{-\frac{1}{2}\ln\frac{1-\alpha}{2}}.</math>

Асимптотическая мощность критерия равна 1.


Обозначим теперь за нулевую гипотезу <math>H_0</math> гипотезу о том, что две исследуемые выборки подчиняются одному распределению случайной величины <math>\xi\colon F(X)\in C^1(\mathbb{X})</math>.

Шаблон:Message boxD_{n,\;m}\leqslant t\right)=K(t)=\sum_{j=-\infty}^{+\infty}(-1)^j e^{-2j^2t^2}</math>, где <math>D_{n,\;m}=\sup_x|F_{1,\;n}-F_{2,\;m}|</math>.}}

Теорема Смирнова позволяет построить критерий для проверки двух выборок на однородность.

Шаблон:Message boxD_{n,\;m}</math> превышает квантиль распределения Колмогорова <math>K_{\alpha}</math> для заданного уровня значимости <math>\alpha</math>, то нулевая гипотеза <math>H_0</math> (об однородности выборок) отвергается. Иначе гипотеза принимается на уровне <math>\alpha</math>.}}

См. также

Примечание 1

В критерии Колмогорова предпочтительней использование статистики с поправкой Большева в следующем виде <math>\sqrt{n}D_n+1/(6\sqrt{n})</math>. Распределение данной статистики уже не так сильно зависит от объема выборки. Зависимостью её распределения от объема выборки <math> n </math> можно пренебречь при <math> n>25 </math>.

Примечание 2

Классический критерий Колмогорова предназначен для проверки простых гипотез. Если проверяется гипотеза о согласии наблюдаемой выборки с законом, все параметры которого известны, то критерий Колмогорова является свободным от распределения: неважно, с каким законом проверяется согласие. Если проверяемая гипотеза справедлива, предельным распределением статистики Колмогорова является распределение Колмогорова <math> K(t) </math>.

Всё меняется при проверке сложных гипотез, когда по анализируемой выборке оцениваются параметры теоретического закона, согласие с которым проверяется. При проверке сложных гипотез свобода от распределения теряется. При проверке сложных гипотез и справедливости проверяемой гипотезы распределения статистик непараметрических критериев согласия (и критерия Колмогорова) зависят от ряда факторов: от вида наблюдаемого закона, соответствующего проверяемой гипотезе; от типа оцениваемого параметра и числа оцениваемых параметров; в некоторых случаях от конкретного значения параметра (например, в случае семейств гамма- и бета-распределений); от метода оценивания параметров. Различия в предельных распределениях той же самой статистики при проверке простых и сложных гипотез настолько существенны, что пренебрегать этим ни в коем случае нельзя.

О применении критерия Колмогорова при проверке сложных гипотез

Ссылки