Русская Википедия:Теорема Гаусса — Маркова

Формулировка теоремы для парной регрессии

Рассматривается модель парной регрессии, в которой наблюдения <math>Y</math> связаны с <math>X</math> следующей зависимостью: <math>Y_i = \beta_1 + \beta_2 X_i + \varepsilon_i</math>. На основе <math>n</math> выборочных наблюдений оценивается уравнение регрессии <math>\hat Y_i = \hat\beta_1 + \hat\beta_2 X_i</math>. Теорема Гаусса—Маркова гласит:

Если данные обладают следующими свойствами:

Модель данных правильно специфицирована; Шаблон:Переход
Все <math>X_i</math> детерминированы и не все равны между собой; Шаблон:Переход
Ошибки не носят систематического характера, то есть <math>\mathbb{E}(\varepsilon_i) = 0\ \forall i</math>; Шаблон:Переход
Дисперсия ошибок одинакова и равна некоторой <math>\sigma^2</math>; Шаблон:Переход
Ошибки некоррелированы, то есть <math>\mathop{\mathrm{Cov}}(\varepsilon_i,\varepsilon_j)=0\ \forall i,j</math>; Шаблон:Переход

— то в этих условиях оценки метода наименьших квадратов оптимальны в классе линейных несмещённых оценок.

Пояснение к теореме

Первое условие: модель данных правильно специфицирована. Под этим словосочетанием понимается следующее:

Модель состоит из фиксированной части <math>(Y = \alpha + \beta X)</math> и случайной части <math>(\varepsilon);</math>
Модель данных линейна по <math>\alpha</math> и <math>\beta</math> (<math>\alpha</math> и <math>\beta</math> линейны по <math>Y</math>);
Отсутствует недоопределённость (то есть ситуация, когда упущены важные факторы) и переопределённость (то есть когда, наоборот, приняты во внимание ненужные факторы); (отсутствие коллинеарности)
Модель данных адекватна устройству данных (модель данных и устройство данных имеют одинаковую функциональную форму).

Устройство данных — это наблюдения случайной величины. Модель данных — это уравнение регрессии. «Иметь одинаковую функциональную форму» означает «иметь одинаковую функциональную зависимость». Например, если точки наблюдений очевидно расположены вдоль невидимой экспоненты, логарифма или любой нелинейной функции, нет смысла строить линейное уравнение регрессии.

Второе условие: все <math>X_i</math> детерминированы и не все равны между собой. Если все <math>X_i</math> равны между собой, то <math>X_i = \bar X,</math> и в уравнении оценки коэффициента наклона прямой в линейной модели в знаменателе будет ноль, из-за чего будет невозможно оценить коэффициенты <math>\beta_2</math> и вытекающий из него <math>\beta_1.</math> При небольшом разбросе переменных <math>X</math> модель сможет объяснить лишь малую часть изменения <math>Y</math>. Иными словами, переменные не должны быть постоянными.

Третье условие: ошибки не носят систематического характера. Случайный член может быть иногда положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в каком из двух возможных направлений. Если уравнение регрессии включает постоянный член (<math>\beta_1</math>), то это условие чаще всего выполняется автоматически, так как постоянный член отражает любую систематическую, но постоянную составляющую в <math>Y</math>, которой не учитывают объясняющие переменные, включённые в уравнение регрессии.

Четвёртое условие: дисперсия ошибок одинакова. Одинаковость дисперсии ошибок также принято называть гомоскедастичностью. Не должно быть априорной причины для того, чтобы случайный член порождал бо́льшую ошибку в одних наблюдениях, чем в других. Так как <math>\mathbb{E}(\varepsilon_i) = 0\ \forall i</math> и теоретическая дисперсия отклонений <math>\varepsilon_i</math> равна <math>\mathbb{E}(\varepsilon_i^2),</math> то это условие можно записать так: <math>\mathbb{E}(\varepsilon_i^2) = \sigma^2_{\varepsilon}\ \forall i.</math> Одна из задач регрессионного анализа состоит в оценке стандартного отклонения случайного члена. Если рассматриваемое условие не выполняется, то коэффициенты регрессии, найденные по методу наименьших квадратов, будут неэффективны, а более эффективные результаты будут получаться путём применения модифицированного метода оценивания (взвешенный МНК или оценка ковариационной матрицы по формуле Уайта или Дэвидсона—Маккинона).

Пятое условие: <math>\varepsilon_i</math> распределены независимо от <math>\varepsilon_j</math> при <math>i\ne j.</math> Это условие предполагает отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Если один случайный член велик и положителен в одном направлении, не должно быть систематической тенденции к тому, что он будет таким же великим и положительным (то же можно сказать и о малых, и об отрицательных остатках). Теоретическая ковариация <math>\sigma_{\varepsilon_i,\varepsilon_j}</math> должна равняться нулю, поскольку <math>\sigma_{\varepsilon_i,\varepsilon_j} = \mathbb{E} \bigl( (\varepsilon_i-\mathbb{E}(\varepsilon_i)) (\varepsilon_j-\mathbb{E}(\varepsilon_j)) \bigr) = \mathbb{E} (\varepsilon_i \varepsilon_j) - \mathbb{E}(\varepsilon_i)\cdot \mathbb{E}(\varepsilon_j) = 0.</math> Теоретические средние для <math>\varepsilon_i</math> и <math>\varepsilon_j</math> равны нулю в силу третьего условия теоремы. При невыполнении этого условия оценки, полученные по методу наименьших квадратов, будут также неэффективны.

Выводы из теоремы:

Эффективность оценки означает, что она обладает наименьшей дисперсией.
Оценка линейна по наблюдениям <math>Y.</math>
Несмещённость оценки означает, что её математическое ожидание равно истинному значению.

Формулировка теоремы для множественной регрессии

Если данные обладают следующими свойствами:

Модель правильно специфицирована (постоянная эластичность рассматривается как постоянная, или нет лишних переменных, или есть все важные переменные),
<math>\mathrm{rang}\, (\boldsymbol{X}) = k</math>,
<math>\mathbb{E}(\boldsymbol{\varepsilon}_i)=0</math>,
<math>\mathrm{Cov}\, (\boldsymbol{\varepsilon}) = \sigma^2 \boldsymbol{I}</math> (что влечёт гомоскедастичность),

— то в этих условиях оценки метода наименьших квадратов <math>\hat{\boldsymbol{\beta}}</math> являются лучшими в классе линейных несмещённых оценок (Best Linear Unbiased Estimators, BLUE).

В случае гетероскедастичности, если дисперсия ошибок явным образом зависит от независимой переменной, под критерий BLUE подпадает взвешенный МНК. При наличии же значительного количества выбросов наиболее эффективным может быть метод наименьших модулей^[1].

Примечания

Шаблон:Примечания

Литература

Шаблон:Rq

↑ Шаблон:Книга

[1] Шаблон:Книга

[1]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Теорема Гаусса — Маркова

Содержание

Формулировка теоремы для парной регрессии

Пояснение к теореме

Формулировка теоремы для множественной регрессии

Примечания

Литература

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты