Русская Википедия:Критерий Вальда — Вольфовица

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Критерий Вальда — Вольфовица (тест периодов, тест прогонов, критерий серий Вальда-Вольфовица), названный в честь статистиков Абрахама Вальда и Джейкоба Вольфовица, представляет собой непараметрический статистический тест, который проверяет гипотезу о случайности для двух последовательностей данных одинаковой длины. Точнее, данный критерий можно использовать для проверки нулевой гипотезы о том, что элементы двух последовательностей взаимно независимы.

Определение

Прогон последовательности — это максимальный непустой сегмент последовательности, состоящий из соседних равных элементов. Если последовательность действительно случайна, то прогонов не должно быть слишком мало, но и не должно быть слишком много.

Например, последовательность длиной в 22 элемента

+ + + + − − − + + + − − + + + + + + − − − −

состоит из 6 прогонов, 3 из которых состоят из «+», а остальные из «−». Тест прогонов основан на нулевой гипотезе о том, что каждый элемент в последовательности независимо берется из одного и того же распределения.

Согласно нулевой гипотезе, количество прогонов в последовательности из N элементов [прим. 1] является случайной величиной, условное распределение которой, учитывая наблюдение N+ положительных значений [прим. 2] и N отрицательных значений [прим. 3] (Шаблон:Nowrap), является приблизительно нормальным, при этом [1][2] математическое ожидание <math>\mu=\frac{2\ N_+\ N_-}{N} + 1</math>, дисперсия <math>\sigma^2=\frac{2\ N_+\ N_-\ (2\ N_+\ N_--N)}{N^2\ (N-1)}=\frac{(\mu-1)(\mu-2)}{N-1}</math>.


Эти параметры не предполагают, что положительные и отрицательные элементы имеют равные вероятности появления, а только предполагают, что элементы независимы и одинаково распределены. Если количество прогонов значительно выше или ниже ожидаемого, гипотеза о статистической независимости элементов может быть отклонена.

Применение

Тест прогонов может быть использован, чтобы проверить:

  1. Случайность распределения данных в последовательности. Таким образом данные проверяются на предмет стационарности или отсутствие корреляции во временном ряду или другой последовательности, особенно если распределение признака неизвестно. Нулевая гипотеза здесь заключается в том, что последовательные значения некоррелированы. Данные выбираются из последовательности в порядке их следования: знаком «+» отмечаются данные равные или превышающие медиану; знаком «–» — данные меньшие медианы.
  2. Насколько хорошо функция соотносится с датасетом. Данные, превышающие значение функции, отмечаются знаком «+», остальные данные отмечаются знаком «–». В этом случае тест прогонов, учитывающий знаки, но не расстояния, является дополнением к критерию хи-квадрат, который учитывает расстояния, но не знаки — обе контрольные величины асимптотически независимы друг от друга.

Пример проверки на случайность распределения данных

Рассмотрим последовательность

13	 3	14	14	1	14	3	8	14	17	9	14	13	2	16	1	3	12	13	14

Отнесем каждое значение данной последовательности к одной из 2 групп («+» или «–») с учетом того больше оно или меньше медианы = 13

0	-10	1	1	-12	1	-10	-5	1	4	-4	1	0	-11	3	-12	-10	-1	0	1
+	-	+	+	-	+	-	-	+	+	-	+	+	-	+	-	-	-	+	+

При N+ = 11 и N- = 9 получается r = 13 прогонов.

R приблизительно нормально распределено с математическим ожиданием <math>\mu = \frac{(2\cdot11\cdot9)}{20} + 1 = 10{,}9</math> и дисперсией <math>\sigma^2 = \frac{2 \cdot 11 \cdot 9 \cdot (2 \cdot 11 \cdot 9 - 20)}{20^2 \cdot 19}= 4{,}6</math>.

В этом случае контрольная величина z рассчитывается как <math>\frac{13 - 10{,}9}{\sqrt{4{,}6}}= 0{,}98</math>.

При уровне значимости 0,05 нулевая гипотеза H0 отвергается, если |z| > 1,96. Это не наш случай.

Результат: нулевая гипотеза не отвергается. Элементы выборки, по-видимому, выбраны случайным образом.

Поскольку тест прогонов не является параметрическим тестом, то к результату следует относиться с осторожностью. Например, при уровне достоверности 90% нулевая гипотеза может быть отвергнута, однако параметрический критерий Шапиро-Уилка показывает, что значения данного числового ряда не распределены нормальным образом!

Связанные критерии

Критерий Вальда-Вольфовица, первоначально предложенный для использования с двумя выборками (последовательностями) [3][4], впоследствии был расширен для использования с несколькими выборками.[5][6][7][8]

Примечания

Шаблон:Reflist

Ссылки

Шаблон:Reflist

Внешние ссылки


Ошибка цитирования Для существующих тегов <ref> группы «прим.» не найдено соответствующего тега <references group="прим."/>

  1. Шаблон:Cite web
  2. Шаблон:Cite web
  3. Шаблон:Cite journal
  4. Шаблон:Cite journal
  5. Шаблон:Cite journal
  6. Шаблон:Cite journal
  7. Sprent P, Smeeton NC (2007) Applied Nonparametric Statistical Methods, pp. 217–219. Boca Raton: Chapman & Hall/ CRC.
  8. Шаблон:Cite journal