Русская Википедия:Робастность
Робастность (Шаблон:Lang-en, от Шаблон:Lang-en2 — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Робастный метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.
На практике наличие в выборках даже небольшого числа резко выделяющихся наблюдений (выбросов) способно сильно повлиять на результат исследования, например, метод наименьших квадратов и метод максимального правдоподобия на специфических распределениях подвержены такого рода искажениям, и значения, получаемые в результате, могут перестать нести в себе какой-либо смысл. Для исключения влияния таких помех используются различные подходы для снижения влияния «плохих» наблюдений (выбросов), либо полного их исключения. Основная задача робастных методов — отличить «плохое» наблюдение от «хорошего», притом даже самый простой из подходов — субъективный (основанный на внутренних ощущениях исследователя) — может принести значительную пользу, однако для мотивированной отбраковки все же исследователями применяются методы, имеющие в своей основе некие строгие математические обоснования. Этот процесс представляет собой весьма нетривиальную задачу для статистика и определяет собой одно из направлений статистической науки.
Понятие робастности
Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами[1][2]. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или намеренные попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой, см. ниже)[1]. Помимо непосредственно «бракованных» наблюдений, также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.
Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.
Стоит отдельно подчеркнуть и не забывать, что отбракованные наблюдения нуждаются в отдельном, более пристальном внимании. Наблюдения, кажущиеся «плохими» для одной гипотезы, могут вполне соответствовать другой. Наконец, отнюдь не всегда резко выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.
Основные подходы
Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления.
- Группировка данных без удаления отдельных наблюдений (для снижения возможности порчи выборки отдельными выпадами). После чего с достаточной степенью уверенности допустимо использование классических методов статистики.
- Отслеживание выбросов непосредственно в процессе анализа. Например, для определения параметров закона распределения возможно использование итерационной процедуры с усечёнными или th-сниженными M-оценками[1].
Группирование данных как метод робастной статистики
Посредством группирования выборки можно резко снизить влияние отдельных наблюдений, не отбрасывая их. Разбиение на интервалы не представляет особых трудностей и даёт весьма ощутимый результат. Существует три наиболее распространённых способа разбиения.
- Разбиение на интервалы равной длины. Наиболее простой и потому распространённый способ.
- Разбиение на интервалы равной вероятности, также называемое равночастотным группированием, что отражает практическую реализацию этого метода. В результате такого группирования выборки осуществляется максимизация величины информационной энтропии <math>\sum{-P_i} \ln{P_i}</math>, где <math>P_i = \int\limits_{x_{i-1}}^{x_i} f(x) \, \mathrm{d} x</math> и достигается наибольшая асимптотическая мощность критерия согласия <math>\chi^2</math>, либо критерия отношения правдоподобия[3].
- Разбиение на асимптотически оптимальные интервалы. При таком разбиении минимизируются потери информации в результате группирования, то есть максимизируется фишеровская информация <math>\sum \left( \frac{ \partial \ln P_i }{ \partial \theta } \right ) ^2 P_i</math>, где <math>\theta</math> — оцениваемый параметр закона. Для многих законов распределения удалось получить инвариантные относительно параметров границы интервалов, и были составлены соответствующие таблицы. Такое разбиение позволяет максимизировать мощность критерия.
Подход, основанный на функции влияния
Один из подходов к созданию робастных методов — оценка параметров распределения по «загрязнённой» выборке, используя методику, разработанную Хампелем[1]. Для анализа влияния отдельного наблюдения на оценку (или рассматриваемую статистику) определённого параметра распределения, Хампел ввёл так называемую функцию влияния (Шаблон:Lang-en), которая по сути является производной данной статистики.
Основные понятия
Вводится функционал <math>T</math>, как функция от некоторой выборки <math>X=(X_1 \ldots X_n) \in \mathbb{X}</math> из распределения <math>F</math> c параметром <math>\theta \in \Theta</math> (оно же <math>F_\theta</math>). <math>T</math> зависит от <math>X:F_\theta</math>. Значит <math>T</math> является функцией от закона <math>F</math> и от параметра <math>\theta</math>. Пусть <math>T</math> также удовлетворяет некоторым условиям состоятельности и регулярности:
- <math>T(F) = \theta, \quad \int T \, \mathrm{d} F = 0.</math>
Производная этого функционала <math>T</math> в точке с распределением <math>F</math>:
- <math>\exists \, a: \quad \lim_{t \to 0} \frac{T((1 - t)F+t G) - T(F)}{t} := \int a \, \mathrm{d} G ,</math>
где:
- <math>a</math> — некая функция, смысл которой прояснится на следующем шаге;
- <math>G</math> — некий закон распределения, отличный от <math>F</math>.
При подстановке <math>\Delta_x</math>, приписывающей единичную массу событию <math>X = x</math>, вместо <math>G</math>, в результате чего от интеграла в правой части выражения останется только <math>a(x)</math>:
- <math>IF = \lim_{t \to 0} \frac{T((1 - t) F + t \Delta_x) - T(F)}{t} .</math>
Эту функцию и называют функцией влияния.
Смысл функции влияния демонстрируется подстановкой <math>\frac{1}{n}</math> вместо <math>t</math> и заменой предела, в результате выражение <math>F_{t,x}=(1 - t)F + t \Delta_x</math> преобразуется в <math>F_{\frac{1}{n},x}=\frac{(n-1)F + \Delta_x}{n}</math>, что соответствует ситуации, когда в выборку, состоящую из <math>(n-1)</math> наблюдения, подчиняющихся распределению <math>F</math>, добавляют ещё одно новое. Таким образом <math>IF</math> отслеживает реакцию используемого функционала <math>T</math> на внесённое добавление, показывая влияние от вклада отдельного наблюдения <math>x</math> на оценку по всей совокупности данных.
Для характеристики влияния отдельных наблюдений также вводят понятие чувствительности к большой ошибке <math>\gamma</math> :
- <math>\gamma = \sup_{x \in \mathbb{X}} | IF(x) | . </math>
Если функция влияния ограничена, то соответствующую оценку называют B-робастной.
М-оценки
Наиболее эффективными и широко используемыми оценками параметров законов распределений являются оценки максимального правдоподобия (ОМП), которые определяются одним из следующих условий:
- <math>\sum_i \ln P_i \to \max_{\theta \in \Theta},\qquad \sum_i \frac{\partial \ln P_i}{\partial \theta} = 0, \qquad \sum_i \frac{P_i'}{P_i} = 0 ,</math>
где в случае негруппированной выборки <math>P_i=f(x_i,\theta)</math>, а в случае группированной — <math>P_i=\left( \int\limits_{x_{i-1}}^{x_i} f(x,\theta) \, \mathrm{d} x \right)^{n_i}</math>
М-оценки являются неким обобщеним ОМП. Они формулируются аналогично одному из следующих уравнений:
- <math>\sum_{i=1}^N \rho(x_i,\theta) \to \max_{\theta \in \Theta}, \qquad \sum_{i=1}^N \phi(x_i,\theta) =0 .</math>
Если наложить условие регулярности в подстановке <math> F_{t,x}=(1-t)F+t\Delta_x</math> и продифференцировать его по <math>t</math> в 0:
- <math>0 = \frac{\partial}{\partial{t}} \int \phi(x,T(F_{t,x})) \, \mathrm{d} F_{t,x}</math>
- <math>0 = \int \frac{\partial \phi(x,T(F_{t,x}))}{\partial \theta} IF \, \mathrm{d} F_{t,x} + \int \phi(x,T(F_{t,x})) \, \mathrm{d} \frac{\partial ((1-t)F + t \Delta_x)}{\partial t}</math>
- <math>0 = IF \int \frac{\partial \phi(x,T(F_{t,x}))}{\partial \theta} \, \mathrm{d} F_{t,x} + \phi(x,T(F_{t,x})) ,</math>
то не представляет большого труда получить выражение функции влияния для M-оценок:
- <math>IF=\frac{-\phi(x)} {\int \phi'_{\theta} (x) \, \mathrm{d} F} .</math>
Указанное выражение позволяет сделать вывод о том, что M-оценки эквивалентны с точностью до ненулевого множителя-константы.
Несложно проверить, что для ОМП стандартного нормального закона распределения <math>\mathcal{N}(0,1)</math> функции влияния <math>IF</math> параметра сдвига и параметра масштаба выглядят соответственно:
- <math> IF = x, \quad IF = \frac{1}{2} \; x^2 - \frac{1}{2} .</math>
Эти функции неограничены, а это значит, что ОМП не является робастной в терминах B-робастности.
Для того, чтобы это исправить, M-оценки искусственно ограничивают, а значит, и ограничивают её <math>IF</math> (см. выражение <math>IF</math> для M-оценок), устанавливая верхний барьер на влияние резко выделяющихся (далеко отстоящих от предполагаемых значений параметров) наблюдений. Делается это введением так называемых усечённых M-оценок, определяемых выражением:
- <math>\phi_b (z)=\left\{ \begin{array}{lr}
\phi(b), & b < z \\ \phi(z), & -b < z \leqslant b \\ \phi(-b), & z \leqslant -b \end{array}\right\} ,</math>
где <math>z=\frac{x-\theta}{S}</math>, <math>\theta</math> и <math>S</math> — оценки параметров сдвига и масштаба соответственно.
Среди усечённых M-оценок оптимальными с точки зрения B-робастности являются усечённые ОМП[1].
Процедура оценивания параметров
Чтобы решить уравнение
- <math>\sum_{i=1}^N \phi(x_i,\theta) =0</math>,
необходимо воспользоваться каким-либо численным методом. Для этого понадобится выбрать начальные приближения. Нулевым параметром сдвига обычно служит медиана, параметром масштаба — значение, кратное медиане отклонений от медианы.
Например, если необходимо оценить параметр сдвига, скажем, нормального закона распределения, можно воспользоваться методом Ньютона численного нахождения корней уравнения. В результате вся процедура нахождения параметра сводится к итеративному вычислению выражения:
- <math>\theta_{k+1}=\theta_k - \frac{\sum_{i=1}^N \phi (x_i,\theta_k)}{\sum_{i=1}^N \phi'_\theta (x_i,\theta_k)}=\theta_k - \frac{\sum_{i=1}^N \phi \left((x_i-\theta_k)/S\right)}{\sum_{i=1}^N \phi'_\theta \left((x_i-\theta_k)/S\right)}=\theta_k + S \frac{\sum_{i=1}^N \phi \left(z\right)}{\sum_{i=1}^N \phi'_z \left(z\right)} , </math>
где <math>S</math> — некоторая оценка параметра масштаба, используемая для уравнивания распределения с разным размахом.
См. также
Примечания
Литература
Ссылки