Русская Википедия:Метод максимального правдоподобия

Ме́тод максима́льного правдоподо́бия или метод наибольшего правдоподобия (ММП, ML, MLE — Шаблон:Lang-en) в математической статистике — это метод оценивания неизвестного параметра путём максимизации функции правдоподобия^[1]. Основан на предположении о том, что вся информация о статистической выборке содержится в функции правдоподобия.

Метод максимального правдоподобия был проанализирован, рекомендован и значительно популяризирован Р. Фишером между 1912 и 1922 годами (хотя ранее он был использован Гауссом, Лапласом и другими).

Оценка максимального правдоподобия является популярным статистическим методом, который используется для создания статистической модели на основе данных и обеспечения оценки параметров модели.

Метод максимального правдоподобия соответствует многим известным методам оценки в области статистики. Например, вы интересуетесь таким антропометрическим параметром, как рост жителей России. Предположим, у вас имеются данные о росте некоторого количества людей, а не всего населения. Кроме того, предполагается, что рост является нормально распределённой величиной с неизвестной дисперсией и средним значением. Среднее значение и дисперсия роста в выборке являются максимально правдоподобными к среднему значению и дисперсии всего населения.

Для фиксированного набора данных и базовой вероятностной модели, используя метод максимального правдоподобия, мы получим значения параметров модели, которые делают данные «более близкими» к реальным. Оценка максимального правдоподобия даёт уникальный и простой способ определить решения в случае нормального распределения.

Метод оценки максимального правдоподобия применяется для широкого круга статистических моделей, в том числе:

линейные модели и обобщённые линейные модели;
факторный анализ;
моделирование структурных уравнений;
многие ситуации, в рамках проверки гипотезы и доверительного интервала формирования;
дискретные модели выбора.

Сущность метода

Пусть есть выборка <math>X_1,\ldots,X_n</math> из распределения <math>\mathbb{P}_{\theta}</math>, где <math>\theta \in \Theta</math> — неизвестные параметры. Пусть <math>L(\mathbf{x} \mid \theta)\colon \Theta \to \mathbb{R}</math> — функция правдоподобия, где <math>\mathbf{x} \in \mathbb{R}^n</math>. Точечная оценка

<math>\hat{\theta}_{\mathrm{M\Pi}} = \hat{\theta}_{\mathrm{M\Pi}} (X_1,\ldots, X_n) = \mathop{\rm argmax}\limits_{\theta \in \Theta} L(X_1 ,\ldots, X_n \mid \theta )</math>

называется оце́нкой максима́льного правдоподо́бия параметра <math>\theta</math>. Таким образом оценка максимального правдоподобия — это такая оценка, которая максимизирует функцию правдоподобия при фиксированной реализации выборки.

Часто вместо функции правдоподобия <math>L</math> используют логарифмическую функцию правдоподобия <math>l=\ln L</math>. Так как функция <math>x \to \ln x,\; x > 0</math> монотонно возрастает на всей области определения, максимум любой функции <math>L(\theta)</math> является максимумом функции <math> \ln L(\theta)</math> и наоборот. Таким образом,

<math>\hat{\theta}_{\mathrm{M\Pi}} = \mathop{\rm argmax}\limits_{\theta \in \Theta} l(X_1 ,\ldots, X_n \mid \theta )</math>,

Если функция правдоподобия дифференцируема, то необходимое условие экстремума — равенство нулю её градиента:

<math>g(\theta)=\frac {\partial l(\mathbf{x},\theta_0)}{\partial \theta}=0</math>

Достаточное условие экстремума может быть сформулировано как отрицательная определённость гессиана — матрицы вторых производных:

<math>H=\frac {\partial^2 l(\mathbf{x},\theta_0)}{\partial \theta \partial \theta^T}</math>

Важное значение для оценки свойств оценок метода максимального правдоподобия играет так называемая информационная матрица, равная по определению:

<math>I(\theta)=E[g(\theta)g(\theta)^T]</math>

В оптимальной точке информационная матрица совпадает с математическим ожиданием гессиана, взятым со знаком минус:

Свойства

Оценки максимального правдоподобия, вообще говоря, могут быть смещёнными (см. примеры), но являются состоятельными, асимптотически эффективными и асимптотически нормальными оценками. Асимптотическая нормальность означает, что

<math>\sqrt {n}(\hat{\theta}-\theta) \xrightarrow d N(0,\boldsymbol{I}^{-1}_{\infty})</math>

где <math>\boldsymbol{I}_{\infty}=-\lim_{n \rightarrow \infty} \frac {1}{n} \mathbb{E}(\boldsymbol{H}) </math> — асимптотическая информационная матрица.

Асимптотическая эффективность означает, что асимптотическая ковариационная матрица <math>\boldsymbol{I}^{-1}_{\infty}</math> является нижней границей для всех состоятельных асимптотически нормальных оценок.

Если <math>\hat{\theta}</math> — оценка метода максимального правдоподобия, параметров <math>\theta</math>, то <math>g(\hat{\theta})</math> является оценкой максимального правдоподобия для <math>g(\theta)</math>, где g — непрерывная функция (функциональная инвариантность). Таким образом, законы распределения данных можно параметризовать различным образом.
Также необходимым условием МП-оценок является выполнение системы вида:
<math>\left\{\begin{matrix}

\frac{\partial}{\partial\theta_1}\ln{L_n}\left( \vec{x},\vec{\theta}\right) & = & 0 \\ \cdots & \cdots & \\

\frac{\partial}{\partial\theta_k}\ln{L_n}\left( \vec{x},\vec{\theta}\right) & =  & 0 \\

\end{matrix}\right.</math>

где <math>L_n\left( \vec{x},\vec{\theta}\right) = \prod_{i = 1}^{n}L_1\left( x_i,\vec{\theta}\right)</math> — функция правдоподобия выборки <math>\vec{x}</math> объёма <math>n</math>

Примеры

Пусть <math>X_1,\ldots, X_n \sim \mathrm{U}[0,\theta]</math> — независимая выборка из непрерывного равномерного распределения на отрезке <math>[0,\theta]</math>, где <math>\theta > 0</math> — неизвестный параметр. Тогда функция правдоподобия имеет вид

<math>f(\mathbf{x} \mid \theta ) =

\begin{cases} \frac{1}{\theta^n}, & \mathbf{x} \in [0,\theta]^n \subset \mathbb{R}^n \\ 0, & \mathbf{x} \not\in [0,\theta]^n \end{cases} . </math> Последнее равенство может быть переписано в виде:

<math>f(\mathbf{x} \mid \theta ) =

\begin{cases} \frac{1}{\theta^n}, & \theta \ge \max(x_1,\ldots,x_n) \\ 0, & \theta < \max(x_1,\ldots,x_n) \end{cases} , </math> где <math>\mathbf{x} = (x_1,\ldots,x_n)^{\top}</math>, откуда видно, что своего максимума функция правдоподобия достигает в точке <math>\theta = \max(x_1,\ldots,x_n)</math>. Таким образом

<math>\hat{\theta}_{\mathrm{M\Pi}} = \max(X_1,\ldots, X_n)</math>.

Такая оценка будет смещенной: <math>P\{\max(X_1,\ldots, X_n) \le x \}= \left(\frac{x}{\theta}\right)^n</math>, откуда <math>E\hat{\theta}_{\mathrm{M\Pi}} = \int_0^\theta x d\left(\frac{x}{\theta}\right)^n = \frac{n}{n+1}\theta</math>

Пусть <math>X_1,\ldots,X_n \sim \mathrm{N}(\mu,\sigma^2)</math> — независимая выборка из нормального распределения с неизвестными средним и дисперсией. Построим оценку максимального правдоподобия <math>\left(\widehat{\mu}_{\mathrm{M\Pi}}, \widehat{\sigma^2}_{\mathrm{M\Pi}}\right)^{\rm T}</math> для неизвестного вектора параметров <math>\left(\mu,\sigma^2\right)^{\rm T}</math>. Логарифмическая функция правдоподобия принимает вид

<math>L(\mathbf{x} \mid\mu, \sigma^2) = - \frac{n}{2} \ln (2 \pi \sigma^2) - \frac{1}{2\sigma^2} \sum\limits_{i=1}^n (X_i - \mu)^2</math>.

Чтобы найти её максимум, приравняем к нулю частные производные:

<math>

\left\{ \begin{matrix} \displaystyle \frac{\partial}{\partial \mu} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\[10pt] \displaystyle \frac{\partial}{\partial \sigma^2} L(\mathbf{x} \mid \mu, \sigma^2 ) = 0 \\ \end{matrix} \right. \Rightarrow \left\{ \begin{matrix} \displaystyle \frac{ \sum\limits_{i=1}^n X_i - n \mu}{\sigma^2} = 0 \\[10pt] \displaystyle -\frac{n}{2 \sigma^2} +\frac{\sum\limits_{i=1}^n (X_i - \mu)^2}{2 \left(\sigma^2\right)^2} = 0 \\ \end{matrix} \right., </math> откуда

<math>\hat{\mu}_{\mathrm{M\Pi}} = \overline{X}</math> — выборочное среднее, а

<math>\widehat{\sigma^2}_{\mathrm{M\Pi}} = S^2_n</math> — выборочная дисперсия.

Применение метода^[2]

Обработка эксперимента

Предположим, что мы измеряем некоторую величину <math display="inline">a</math>. Сделав одно измерение, получили её значение <math display="inline">x_1</math> с ошибкой <math display="inline"> \sigma_1 </math>: <math display="inline"> x_1 \pm \sigma_1 </math>. Запишем плотность вероятности того, что величина <math display="inline">a</math> примет значение <math display="inline">x_1</math>:

<math> W(a) = \frac{1}{\sqrt{2\pi\sigma_1^2}} \exp \left[-\frac{(x_1 - a)^2}{2\sigma_1^2}\right] </math>.

Теперь предположим, что мы провели несколько таких измерений и получили <math display="inline"> x_1 \pm \sigma_1, x_2 \pm \sigma_2 \ldots x_n \pm \sigma_n </math>. Плотность вероятности того, что величина <math display="inline">a</math> примет значения <math display="inline"> x_1, x_2 \ldots x_n </math>, будет:

<math> W(a) = \prod^n_{i=1} {\frac{1}{\sqrt{2\pi\sigma_i^2}} \exp \left[-\frac{(x_i - a)^2}{2\sigma_i^2}\right]} </math>.

Эта функция называется функцией правдоподобия. Наиболее вероятное значение измеряемой величины <math display="inline">a^*</math> определяется по максимуму функции правдоподобия. Более удобной является логарифмическая функция правдоподобия:

<math> L(a) = \ln W(a) = - \sum_{i=1}^n {\frac{(x_i - a)^2}{2\sigma_i^2}} + \sum_{i=1}^n {\ln{\frac{1}{\sqrt{2\pi\sigma_i^2}}}} </math>.

Продифференцируем логарифмическую функцию правдоподобия по <math display="inline"> a </math>:

<math> \frac{\partial{L}}{\partial{a}} = \sum_{i=1}^n {\frac{x_i - a}{\sigma_i^2}} </math>.

Приравняем <math> \frac{\partial{L}}{\partial{a}} </math> к <math display="inline"> 0 </math> и получим некоторое значение <math display="inline"> a = a^* </math>:

<math> a^* = \frac{\sum\limits^{n}_{i=1} {\frac{x_i}{\sigma_i^2}}}{\sum\limits^{n}_{i=1} {\frac{1}{\sigma_i^2}}} </math>.

Крамер сформулировал следующую теорему:

Теорема: Не существует другого метода обработки результатов эксперимента, который дал бы лучшее приближение к истине, чем метод максимального правдоподобия.

Ошибки измерений

Предположим, что мы провели серию измерений и получили серию значений <math display="inline">a^*</math>, естественно записать, что это распределение будет иметь гауссовский вид:

<math> W(a) = \frac{1}{\sqrt{2\pi\sigma_{a^*}^2}} \exp \left[-\frac{(a^* - a)^2}{2\sigma_{a^*}^2}\right] </math>.

Запишем логарифмическую функцию правдоподобия:<math> L(a) = \ln W(a) = -{\frac{(a^* - a)^2}{2\sigma_{a^*}^2}} + {\ln{\frac{1}{\sqrt{2\pi\sigma_{a^*}^2}}}} </math>.

Возьмем первую производную:

<math> \frac{\partial{L}}{\partial{a}} = \frac{a^* - a}{\sigma_{a^*}^2} </math>.

Если <math> \frac{\partial{L}}{\partial{a}} = 0 </math> , то <math> a = a^* </math>. Теперь возьмем вторую производную:

<math> \frac{\partial^2{L}}{\partial{a}^2} = -\frac{1}{\sigma_{a^*}^2} </math>, откуда

<math> \sigma_{a^*} = \left(-\frac{\partial^2{L}}{\partial{a}^2} \Big|_{a = a^*} \right)^{-1/2} </math>.

Это называется первой магической формулой^[2].

Условный метод максимального правдоподобия

Условный метод максимального правдоподобия (Conditional ML) используется в регрессионных моделях. Суть метода заключается в том, что используется не полное совместное распределение всех переменных (зависимой и регрессоров), а только условное распределение зависимой переменной по факторам, то есть фактически распределение случайных ошибок регрессионной модели. Полная функция правдоподобия есть произведение «условной функции правдоподобия» и плотности распределения факторов. Условный ММП эквивалентен полному варианту ММП в том случае, когда распределение факторов никак не зависит от оцениваемых параметров. Это условие часто нарушается в моделях временных рядов, например в авторегрессионной модели. В данном случае, регрессорами являются прошлые значения зависимой переменной, а значит их значения также подчиняются той же AR-модели, то есть распределение регрессоров зависит от оцениваемых параметров. В таких случаях результаты применения условного и полного метода максимального правдоподобия будут различаться.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Вс Шаблон:Rq

↑ Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.
↑ ^2,0 ^2,1 Шаблон:Книга

[1] Фишер — 1912 г. Математический энциклопедический словарь, М.: Советская энциклопедия, 1988.

[:0-2] 2,0 ^2,1 Шаблон:Книга

[1]

[2]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Метод максимального правдоподобия

Содержание

Сущность метода

Свойства

Примеры

Применение метода^[2]

Обработка эксперимента

Ошибки измерений

Условный метод максимального правдоподобия

См. также

Примечания

Литература

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты

Русская Википедия:Метод максимального правдоподобия

Сущность метода

Свойства

Примеры

Применение метода[2]

Обработка эксперимента

Ошибки измерений

Условный метод максимального правдоподобия

См. также

Примечания

Литература

Навигация

Поиск

Применение метода^[2]