Русская Википедия:Статистика оценки

Статистика оценки (оценочная статистика, Шаблон:Lang-en) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов.^[1] Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным.^[2]^[3] Статистика оценки, или просто оценка, также известная как новая статистика,^[3] используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом,^[4] несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.^[5]^[6]

Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки.^[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости^[8] и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.^[9]

История

В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.^[10]

История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах.^[11] С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.^[4]

В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.^[12]

В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.^[13]

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез.^[14] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».^[15]

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.^[16]

Методология

У многих тестов значимости есть аналог в статистике оценки.^[17] Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R²) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам.^[2]^[6]^[7] Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп.^[18] В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.^[19]

Файл:20171231-wiki-figure-png.png

График Гарднера — Альтмана. Слева: обычная столбиковая диаграмма со звездочками, чтобы показать, что разница «статистически значима». Справа: график Гарднера — Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера — Альтмана

График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г.^[18] Этот статистический график отображает данные из двух независимых групп.^[6] Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности.^[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.

График Камминга

Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений^[3]: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.

Другие методологии

Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R²) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.

Недостатки в проверке гипотез

Шаблон:Main Шаблон:See also

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез^[3]^[7] по следующим причинам:

P-значения легко и часто неправильно интерпретируются. Например, p-значение часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна»^[20].
Нулевая гипотеза всегда неверна для каждого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный.^[21]
Проверка гипотез дает произвольно дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине эффекта.^[22]
Любое конкретное p-значение возникает в результате взаимодействия размера эффекта, размера выборки (при прочих равных, больший размер выборки дает меньшее p-значение) и ошибки выборки.^[23]
При низкой мощности симуляция данных показывает, что ошибка выборки делает p-значения чрезвычайно непостоянными.^[24]

Преимущества статистики оценки

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента.^[3] Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.^[25]

Планирование точности (Precision planning)

Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.^[3]

Примечания

Шаблон:Примечания

[1] Шаблон:Cite web

[:0-2] 2,0 ^2,1 Шаблон:Cite web

[cumming-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 ^3,5 ^3,6 Шаблон:Cite book

[button-4] 4,0 ^4,1 Шаблон:Cite journal

[5] Шаблон:Cite book

[:1-6] 6,0 ^6,1 ^6,2 Шаблон:Cite book

[cohen-7] 7,0 ^7,1 ^7,2 Шаблон:Cite journal

[8] Шаблон:Cite web

[9] Шаблон:Cite journal

[10] Шаблон:Cite journal

[11] Шаблон:Cite book

[12] Шаблон:Cite journal

[13] Шаблон:Cite web

[14] Шаблон:Cite web

[15] Шаблон:Cite web

[16] Шаблон:Cite web

[17] Шаблон:Cite book

[:2-18] 18,0 ^18,1 Шаблон:Cite journal

[19] Шаблон:Cite journal

[20] Шаблон:Статья

[earth-21] Шаблон:Cite journal

[22] Шаблон:Cite book

[23] Шаблон:Cite book

[24] Шаблон:Cite web

[25] Шаблон:Cite journal

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.