Русская Википедия:Достаточная статистика

Достаточная статистика для параметра <math>\theta \in \Theta,\;</math> определяющая некоторое семейство <math>F_\theta</math> распределений вероятности — статистика <math>T = \mathrm{T}(X)\;</math> такая, что условная вероятность выборки <math>X = X_1, X_2, \ldots, X_n\;</math> при данном значении <math>\mathrm{T}(X)\;</math> не зависит от параметра <math>\theta\;.</math> То есть выполняется равенство:

<math>\mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t,\theta) = \mathbb{P}(X \in \bar{X}|\mathrm{T}(X)=t),</math>

Достаточная статистика <math> \mathrm{T}(X),\;</math> таким образом, содержит в себе всю информацию о параметре <math>\theta\;</math>, которая может быть получена на основе выборки X. Поэтому понятие достаточной статистики широко используется в теории оценки параметров.

Наиболее простой достаточной статистикой является сама выборка <math>\mathrm{T}(X) = X\;</math>, однако действительно важными являются случаи, когда размерность достаточной статистики значительно меньше размерности выборки, в частности, когда достаточная статистика выражается лишь несколькими числами.

Достаточная статистика <math>S = \mathrm{S}(X)\;</math> называется минимально достаточной, если для каждой достаточной статистики T существует неслучайная измеримая функция g, что <math>S(X) = g(T(X))</math> почти всюду.

Теорема факторизации

Теорема факторизации даёт способ практического нахождения достаточной статистики для распределения вероятности. Она даёт достаточные и необходимые условия достаточности статистики и утверждение теорем иногда используется в качестве определения.

Пусть <math>\mathrm{T}(X)\;</math> — некоторая статистика, а <math>f_\theta(x)</math> — условная функция плотности или функция вероятности (в зависимости от вида распределения) для вектора наблюдений X. Тогда <math>\mathrm{T}(X)\;</math> является достаточной статистикой для параметра <math>\theta \in \Theta\;</math>, тогда и только тогда, когда существуют такие измеримые функции <math>h</math> и <math>g</math>, что можно записать:

<math>f_\theta(x)=h(x) \, g(\theta,\mathrm{T}(x))</math>

Доказательство

Ниже приведено доказательство для частного случая, когда распределение вероятностей является дискретным. Тогда <math>f_\theta(x) = \mathbb{P}(X = x |\theta)</math> — Функция вероятности.

Пусть данная функция имеет факторизацию, как в формулировке теоремы, и <math>\mathrm{T}(x) = t.</math>

Тогда имеем:

<math>\begin{align} \mathbb{P}(X = x |\mathrm{T}(X)=t,\theta) & = \frac{\mathbb{P}(X = x |\theta)}{\mathbb{P}(\mathrm{T}(X)=t |\theta)} & = \frac{h(x) \, g(\theta,\mathrm{T}(x))}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,\mathrm{T}(x))} \\ & = \frac{h(x) \, g(\theta,t)}{\sum _{x : \mathrm{T}(x) = t} h(x) \, g(\theta,t)} & = \frac{h(x) \,}{\sum _{x : \mathrm{T}(x) = t} h(x) \,}. \end{align}</math>

Отсюда видим, что условная вероятность вектора X при заданном значении статистики <math>\mathrm{T}(X)\;</math> не зависит от параметра и соответственно <math>\mathrm{T}(X)\;</math> — достаточная статистика.

Наоборот можем записать:

<math>\mathbb{P}(X = x|\theta) = \mathbb{P}(X = x|\mathrm{T}(X)=t,\theta) \cdot \mathbb{P}(\mathrm{T}(X)=t | \theta).</math>

Из приведённого выше имеем, что первый множитель правой части не зависит от параметра <math> \theta</math> и его можно взять за функцию <math> h(x)</math> из формулировки теоремы. Другой множитель является функцией от <math> \theta\;</math> и <math>\mathrm{T}(X),\;</math> и его можно взять за функцию <math>g(\theta,\mathrm{T}(x)).</math> Таким образом, получена необходимая декомпозиция, что завершает доказательство теоремы.

Примеры

Распределение Бернулли

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность случайных величин, что равны 1 с вероятностью <math>p</math> и равны 0 с вероятностью <math>1 - p</math> (то есть, имеют распределение Бернулли). Тогда

<math>\mathbb{P}(x_1, \ldots x_n | p) = p^{\sum x_i}(1-p)^{n-\sum x_i}=p^{\mathrm{T}(x)}(1-p)^{n-\mathrm{T}(x)},</math>

если взять <math>\mathrm{T}(X) = X_1 + \ldots + X_n.</math>

Тогда данная статистика является достаточной согласно теореме факторизации, если обозначить

<math>g(p,\mathrm{T}(x_1, \ldots x_n)) = p^{\mathrm{T}(x_1, \ldots x_n)}(1-p)^{n-\mathrm{T}(x_1, \ldots x_n)},</math>

<math>h(x_1, \ldots x_n) = 1.</math>

Распределение Пуассона

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность случайных величин с распределением Пуассона. Тогда

<math>\mathbb{P}(x_1, \ldots x_n |\lambda) = {e^{-\lambda} \lambda^{x_1} \over x_1 !} \cdot {e^{-\lambda} \lambda^{x_2} \over x_2 !} \cdots {e^{-\lambda} \lambda^{x_n} \over x_n !} = e^{-n\lambda} \lambda^{(x_1+x_2+\cdots+x_n)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } = e^{-n\lambda} \lambda^{\mathrm{T}(x)} \cdot {1 \over x_1 ! x_2 !\cdots x_n ! } </math>

где <math>\mathrm{T}(X) = X_1 + \ldots + X_n.</math>

Данная статистика является достаточной согласно теореме факторизации, если обозначить

<math>g(\lambda,\mathrm{T}(x_1, \ldots x_n)) = e^{-n\lambda} \lambda^{\mathrm{T}(x)}</math>

<math>h(x_1, \ldots x_n) = {1 \over x_1 ! x_2 !\cdots x_n ! }</math>

Равномерное распределение

Пусть <math>X_1, X_2, \ldots, X_n\;</math> — последовательность равномерно распределённых случайных величин <math>X_1, X_2, \ldots, X_n\; ~ U (a, b)</math> . Для этого случая

<math> \mathbb{P}(x_1, \ldots x_n |a, b) = \left(b - a \right)^{-n} \mathbf{1}_{ \{ a \, \leq \, \min_{1 \leq i \leq n}X_i \} } \mathbf{1}_{ \{ \max_{1 \leq i \leq n}X_i \, \leq \, b \} }. </math>

Отсюда следует, что статистика <math>T(X) = \left(\min_{1 \leq i \leq n}X_i,\max_{1 \leq i \leq n}X_i\right)</math> является достаточной.

Нормальное распределение

Для случайных величин <math>X_1, X_2, \ldots, X_n\;</math> с нормальным распределением <math>\mathcal{N}(\mu,\,\sigma^2)</math> достаточной статистикой будет <math>\mathrm{T}(X) = \left(\sum_{i=1}^nX_i, \sum_{i=1}^nX_i^2\right)\,.</math>

Свойства

Для достаточной статистики T и биективного отображения <math>\phi</math> статистика <math>\phi(T)</math> тоже является достаточной.
Если <math>\delta(X)</math> — статистическая оценка некоторого параметра <math>\theta, </math> <math> \mathrm{T}(X),\;</math> — некоторая достаточная статистика и <math> \delta_{1}(X) = \textrm{E}[\delta(X)|T(X)]</math> то <math>\delta_{1}(X)</math> является лучшей оценкой параметра в смысле среднеквадратичного отклонения, то есть выполняется неравенство

<math>\textrm{E}[(\delta_{1}(X)-\theta)^{2}]\leq\textrm{E}[(\delta(X)-\theta)^{2}]</math>

причём равенство достигается лишь когда <math>\delta</math> является измеримой функцией от T. (Теорема Рао — Блэквелла — Колмогорова)

Из предыдущего получается, что оценка может быть оптимальной в смысле среднеквадратичного отклонения лишь когда она является измеримой функцией минимальной достаточной статистики.
Если статистика <math>T = \mathrm{T}(X),\;</math> является достаточной и полной (то есть, из того, что <math>E_{\theta}[g(T(X))] = 0, \, \forall \theta \in \Theta</math> следует, что <math>P_\theta ( g(T(X)) = 0 ) = 1 \, \forall \theta \in \Theta

</math>), то произвольная измеримая функция от неё является оптимальной оценкой своего математического ожидания.

См. также

Литература

Kholevo, A.S. (2001), «Sufficient statistic», in Hazewinkel, Michiel, Encyclopaedia of Mathematics, Springer, ISBN 978-1-55608-010-4
Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer. Chapter 4. ISBN 0-387-98502-6.
Шаблон:Книга

Шаблон:Вс

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Достаточная статистика

Содержание