Русская Википедия:Анализ полных наблюдений

Пример анализа полных наблюдений. В ходе построения регрессии <math>Y</math> на <math>X_1, X_2, X_2</math> анализ полных наблюдений будет заключаться в удалении наблюдений у которых есть пропущенные значения (NA)

Анализ полных наблюдений (Шаблон:Lang-en, реже Шаблон:Lang-en) — статистический метод обработки пропущенных данных, основанный на удалении всех наблюдений с неполными признаковыми описаниями. Считается самым простым способом разрешения проблемы пропущенных данныхШаблон:Sfn.

Оценка регрессий при анализе полных наблюдений

Представим линейную регрессионную модель вида <math>\mathbf{Y} = \mathbf{X\beta} + \mathbf{\epsilon}</math>, где <math>\mathbf{Y}</math> — вектор целевых значений, <math>\mathbf{X}</math> — матрица значений независимых переменных, <math>\mathbf{\beta}</math> — вектор регрессионных коэффициентов, <math>\mathbf{\epsilon}</math> — вектор регрессионных остатков.

Пусть <math>O_i = 1</math>, если Шаблон:Math-е наблюдение имеет полное признаковое описание и <math>O_i = 0</math> в противном случае — то есть <math>\mathbf{O} = \mathrm{diag}(O_1, ..., O_n)</math>. Тогда модель с использованием исключительно полных наблюдений будет формулироваться следующим образом: <math>\mathbf{OY = OX\theta + O\varepsilon}</math>, где <math>\theta</math> и <math>\varepsilon</math> — векторы новых регрессионных коэффициентов и остатков соответственно.

МНК-оценка вектора <math>\theta</math> в таком случае выглядит следующим образомШаблон:Sfn: <math>\mathbf{\hat{\theta}=\beta + (X'OX)^{-1}X'\epsilon}</math>.

Ограничения метода

Шаблон:Достоверность Анализ полных наблюдений позволяет получать несмещённые оценки при регрессионном анализе (с использованием МНК) при условии, что вероятность пропуска значения (<math>P(O_i=0)</math>) зависит от независимых переменных (<math>\mathbf{X}</math>), а не регрессионных остатков (<math>\mathbf{\epsilon}</math>)Шаблон:Sfn. Действительно, смещённость оценок может быть связана с тем, что пропуск данных не случаен (MNAR, Шаблон:Lang-en). Например, респонденты отказываются отвечать на какой-то сензитивный вопрос — в таком случае в выборке останутся только те респонденты, которые (по каким-то причинам) склонны отвечать на вопросы определённого типаШаблон:Sfn. Данное условие может не выполняться в двух случаях:

Невключение какой-то значимой переменной (omitted variable).
Неверная спецификация одной из независимых переменных (то есть включённая переменная некорректно отражает другую, «истинную»)Шаблон:Sfn.

Кроме того, вероятность пропуска может быть связана и с откликом (<math>\mathbf{Y}</math>)^[1]. Помимо этого условия несмещённости, определённого для «истинной» линейной регрессионной модели, большую роль играет корректность выбора функциональной формы зависимости между независимой и зависимой переменными. Эти допущения зачастую не работают в социальных науках: верная спецификация моделей и точная функциональная форма редко бывают доподлинно известныШаблон:Sfn.

Использование методики анализа полных наблюдений приводит к уменьшению размера исследуемой выборки, что также создаёт проблемы. Это сокращает статистическую мощность критериев, которые могут применяться на данныхШаблон:Sfn Шаблон:Sfn. Кроме того, метод может привести к получению неэффективных оценок, если удаление наблюдений значительно сократит объясняемую дисперсию Шаблон:Sfn.

Сравнение с другими методами

В случаях, когда изложенные недостатки и ограничения анализа полных наблюдений имеют место быть, рекомендуется прибегать к альтернативным, более сложным методам обработки пропущенных данных: попарное удаление пропущенных наблюдений (Шаблон:Lang-en), введение дамми на пропуск, а также множественная импутация (Шаблон:Lang-en)Шаблон:Sfn. Литтл и Рубин отмечали, что анализ полных наблюдений приводит к потере неоправданного объёма дисперсии, если статистический метод подразумевает исследование одной переменной (например, нахождение среднего значения), ведь в таком случае из выборки будут исключены даже те наблюдения, у которых значения в этой переменной не пропущены, и рекомендовали для таких случаев простую замену — анализ доступных значенийШаблон:Sfn.

Тем не менее, в ряде случаев анализ полных наблюдений может обладать преимуществами по сравнению с более сложными альтернативамиШаблон:Sfn.

Анализ полных наблюдений широко используется в анализе «Шаблон:Нп4», широко распространённом в экономике образования, где средний эффект от вмешательства на полных наблюдениях сравнивается с эффектом, рассчитанным с включением наблюдений с неполными признаковыми описаниямиШаблон:Sfn.

В статистических пакетах

В SPSS использование методики анализа полных наблюдений при корреляционном, регрессионном и других типах статистического анализа осуществляется посредством включения подкоманды /MISSING=LISTWISE в синтаксис применяемой функции^[2].
В Шаблон:Нп4 при построении регрессий, корреляционных и ковариационных матриц по умолчанию удаляются наблюдения с пропущенными значениями^[3].
В R есть несколько способов применения анализа полных наблюдений: стандартные функции na.omit(), complete.cases() и параметр na.rm = TRUE, «механически» удаляющие наблюдения с пропущенными значениями переменных^[4], а также функция ld() для матричных объектов из пакета (библиотеки) ForImp^[5].

Примечания

Шаблон:Примечания

Литература

Ссылки

Missing Data: Listwise vs. Pairwise. Statistics Solutions.

Шаблон:Изолированная статья

↑ Тем не менее, показывается (Шаблон:Sfn0), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (Шаблон:Lang-en).
↑ Шаблон:Cite web
↑ Шаблон:Cite web
↑ Шаблон:Cite web
↑ Шаблон:Cite web

[1] Тем не менее, показывается (Шаблон:Sfn0), что для валидности метода достаточно независимости от переменных-регрессоров, а не полное соответствие допущению MСAR (Шаблон:Lang-en).

[2] Шаблон:Cite web

[3] Шаблон:Cite web

[4] Шаблон:Cite web

[5] Шаблон:Cite web

[1]

[2]

[3]

[4]

[5]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Анализ полных наблюдений

Содержание

Оценка регрессий при анализе полных наблюдений

Ограничения метода

Сравнение с другими методами

В статистических пакетах

Примечания

Литература

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты