Русская Википедия:Достаточная статистика

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Достаточная статистика для параметра <math>\theta \in \Theta,\;</math> определяющая некоторое семейство <math>F_\theta</math> распределений вероятности — статистика <math>T = \mathrm{T}(X)\;</math> такая, что условная вероятность выборки <math>X = X_1, X_2, \ldots, X_n\;</math> при данном значении <math>\mathrm{T}(X)\;</math> не зависит от параметра <math>\theta\;.</math> То есть выполняется равенство:

<math>\mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t,\theta) = \mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t),</math>

Достаточная статистика <math> \mathrm{T}(X),\;</math> таким образом, содержит в себе всю информацию о параметре <math>\theta\;</math>, которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка <math>\mathrm{T}(X) = X\;</math>, однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика <math>S = \mathrm{S}(X)\;</math> называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеримая функция g, что <math>S(X) = g(T(X))</math> почти всюду.

Теорема факторизации

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть <math>\mathrm{T}(X)\;</math> — некоторая статистика, а <math>f_\theta(x)</math> — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда <math>\mathrm{T}(X)\;</math> является достаточной статистикой для параметра <math>\theta \in \Theta\;</math>, тогда и только тогда, когда существуют такие измеримые функции <math>h</math> и <math>g</math>, что можно записать:

<math>f_\theta(x)=h(x) \, g(\theta,\mathrm{T}(x))</math>

Доказательство

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда <math>f_\theta(x) = \mathbb{P}(X = x |\theta)</math> — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и <math>\mathrm{T}(x) = t.</math>

Тогда имеем:

<math>\begin{align} \mathbb{P}(X = x |\mathrm{T}(X)=t,\theta) & = \frac{\mathbb{P}(X = x |\theta)}{\mathbb{P}(\mathrm{T}(X)=t |\theta)} & = \frac{h(x) \, g(\theta,\mathrm{T}(x))}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,\mathrm{T}(x))} \\ & = \frac{h(x) \, g(\theta,t)}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,t)} & = \frac{h(x) \,}{\sum _{x : \mathrm{T}(x) = t} h(x) \,}. \end{align}</math>

Отсюда видим, что условная вероятность вектора X при заданном значении статистики <math>\mathrm{T}(X)\;</math> не зависит от параметра и соответственно <math>\mathrm{T}(X)\;</math> — достаточная статистика.

Наоборот можем записать:

<math>\mathbb{P}(X = x|\theta) = \mathbb{P}(X = x|\mathrm{T}(X)=t,\theta) \cdot \mathbb{P}(\mathrm{T}(X)=t | \theta).</math>

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра <math> \theta</math> и его можно взять за функцию <math> h(x)</math> из формулировки теоремы. Другой множитель является функцией от <math> \theta\;</math> и <math>\mathrm{T}(X),\;</math> и его можно взять за функцию <math>g(\theta,\mathrm{T}(x)).</math> Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры

Распределение Бернулли

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность случайных величин, что равны 1 с вероятностью <math>p</math> и равны 0 с вероятностью <math>1 - p</math> (то есть, имеют распределение Бернулли). Тогда

<math>\mathbb{P}(x_1, \ldots x_n | p) = p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{\mathrm{T}(x)}(1-p)^{n-\mathrm{T}(x)},</math>

если взять <math>\mathrm{T}(X) = X_1 + \ldots + X_n.</math>

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

<math>g(p,\mathrm{T}(x_1, \ldots x_n)) = p^{\mathrm{T}(x_1, \ldots x_n)}(1-p)^{n-\mathrm{T}(x_1, \ldots x_n)},</math>
<math>h(x_1, \ldots x_n) = 1.</math>

Распределение Пуассона

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность случайных величин с распределением Пуассона. Тогда

<math>\mathbb{P}(x_1, \ldots x_n |\lambda) = {e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} = e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{\mathrm{T}(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } </math>


где <math>\mathrm{T}(X) = X_1 + \ldots + X_n.</math>

Данная статистика является достаточной согласно теореме факторизации, если обозначить

<math>g(\lambda,\mathrm{T}(x_1, \ldots x_n)) = e^{-n\lambda} \lambda^{\mathrm{T}(x)}</math>
<math>h(x_1, \ldots x_n) = {1 \over x_1 ! x_2 !\cdots x_n ! }</math>

Равномерное распределение

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность равномерно распределённых случайных величин <math>X_1, X_2, \ldots, X_n\; ~ U (a, b)</math> . Для этого случая

<math> \mathbb{P}(x_1, \ldots x_n |a, b) = \left(b - a \right)^{-n} \mathbf{1}_{ \{ a \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, b \} }. </math>

Отсюда следует, что статистика <math>T(X) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)</math> является достаточной.

Нормальное распределение

Для случайных величин <math>X_1, X_2, \ldots, X_n\;</math> с нормальным распределением <math>\mathcal{N}(\mu,\,\sigma^2)</math> достаточной статистикой будет <math>\mathrm{T}(X) = \left(\sum_{i=1}^nX_i, \sum_{i=1}^nX_i^2\right)\,.</math>

Свойства

  • Для достаточной статистики T и биективного отображения <math>\phi</math> статистика <math>\phi(T)</math> тоже является достаточной.
  • Если <math>\delta(X)</math> — статистическая оценка некоторого параметра <math>\theta, </math> <math> \mathrm{T}(X),\;</math> — некоторая достаточная статистика и <math> \delta_{1}(X) = \textrm{E}[\delta(X)|T(X)]</math> то <math>\delta_{1}(X)</math> является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство
<math>\textrm{E}[(\delta_{1}(X)-\theta)^{2}]\leq\textrm{E}[(\delta(X)-\theta)^{2}]</math>
причём равенство достигается лишь когда <math>\delta</math> является измеримой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)
  • Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеримой функцией минимальной достаточной статистики.
  • Если статистика <math>T = \mathrm{T}(X),\;</math> является достаточной и полной (то есть, из того, что <math>E_{\theta}[g(T(X))] = 0, \, \forall \theta \in \Theta</math> следует, что <math>P_\theta ( g(T(X)) = 0 ) = 1 \, \forall \theta \in \Theta

</math>), то произвольная измеримая функция от неё является оптимальной оценкой своего математического ожидания.

См. также

Литература

Шаблон:Вс