Русская Википедия:Статистика оценки

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Статистика оценки (оценочная статистика, Шаблон:Lang-en) — подход к анализу данных, который включает в себя комбинацию из методов: размера эффекта, доверительных интервалов, планирования точности и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов.[1] Этот подход отличается от проверки значимости нулевой гипотезы (NHST), который считается менее информативным.[2][3] Статистика оценки, или просто оценка, также известная как новая статистика,[3] используется в области психологии, медицинских исследований, наук о жизни и в широком спектре других экспериментальных наук, где проверка значимости нулевой гипотезы всё ещё остается распространённым подходом,[4] несмотря на то, что в течение последних нескольких десятилетий статистика оценки рекомендуется в качестве предпочтительного подхода.[5][6]

Основная цель статистики оценки — сообщить размер эффекта (точечную оценку) вместе с его доверительным интервалом, который связан с точностью оценки.[7] Доверительный интервал суммирует диапазон вероятных значений основного эффекта популяции. Сторонники статистики оценки предпочитают сообщать о размере эффекта с его доверительными интервалами вместо p-уровня значимости[8] и считают, что статистика оценки должна заменить метод проверки значимости для анализа данных.[9]

История

В физике давно используется метод средневзвешенных значений, аналогичный метаанализу.[10]

История статистики оценки началась с разработки Якобом Коэном стандартизированной величины эффекта в 1960-х годах. Первые исследования с использованием оценочной статистики были впервые проведены Джином В. Глассом вместе с разработкой метода метаанализа в 1970-х годах.[11] С тех пор методы статистики оценки были усовершенствованы Ларри Хеджесом, Майклом Боренштейном, Дугом Альтманом, Мартином Гарднером, Джеффом Каммингом и другими. Систематический обзор в сочетании с метаанализом — это смежный метод, который широко используется в медицинских исследованиях. Несмотря на широкое распространение метаанализа, подход статистики оценки до сих пор не используется на постоянной основе в главенствующих биомедицинских исследованиях.[4]

В 1990-х редактор Кеннет Ротман запретил использование p-значений в журнале Epidemiology; авторы поддержали инициативу, но это не повлияло на их аналитическое мышление при проведении исследований.[12]

В последнее время методы статистики оценки применяются в таких областях, как нейробиология, психология образования и психология.[13]

В руководстве по публикациям Американской психологической ассоциации рекомендуется оценка (estimation), а не проверка (testing) гипотез.[14] В документе «Единые требования к рукописям, представляемым в биомедицинские журналы» содержится аналогичная рекомендация: «Избегайте полагаться исключительно на статистическую проверку гипотез, такую как p-значения, которая не может передать важную информацию о величине эффекта».[15]

В 2019 году журнал Общества нейробиологии eNeuro ввел политику, рекомендующую использовать графики статистики оценки в качестве предпочтительного метода для представления данных.[16]

Методология

У многих тестов значимости есть аналог в статистике оценки.[17] Почти в каждом случае результат теста (или его p-значение) можно просто заменить размером эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, вычислив среднюю разницу и ее 95 % доверительный интервал. Соответствующие методы могут использоваться для парного t-критерия и множественных сравнений. Точно так же для регрессионного анализа аналитик должен сообщить коэффициент детерминации (R2) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики рекомендуют анализировать и представлять данные с помощью визуализации данных в дополнение к цифровым расчетам.[2][6][7] Примерами подходящей визуализации являются точечный график для регрессии и графики Гарднера-Альтмана для двух независимых групп.[18] В то время как классические графики (например, гистограммы, ящики с усами и скрипичные графики) не отображают сравнение, графики статистики оценки добавляют вторую ось для четкой визуализации размера эффекта.[19]

Файл:20171231-wiki-figure-png.png
График Гарднера — Альтмана. Слева: обычная столбиковая диаграмма со звездочками, чтобы показать, что разница «статистически значима». Справа: график Гарднера — Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера — Альтмана

График разности средних Гарднера — Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 г.[18] Этот статистический график отображает данные из двух независимых групп.[6] Также есть версия графика, подходящая для связанных выборок. Ключевые инструкции по составлению этой диаграммы следующие: (1) отобразить все наблюдаемые значения для обеих групп рядом; (2) поместить вторую ось справа, сместив её, чтобы показать шкалу разности средних; и (3) построить на графике разность средних с ее доверительным интервалом в виде маркера со значением погрешности.[3] Графики Гарднера-Альтмана могут быть созданы с помощью специального кода с использованием пакетов Ggplot2, seaborn или DABEST; в качестве альтернативы аналитик может использовать удобное программное обеспечение, такое как приложение Estimation Stats.

График Камминга

Для нескольких групп Джефф Камминг ввел дополнительную панель для построения двух или более разностей средних и их доверительных интервалов, помещенных под первой панелью наблюдаемых значений[3]: такое расположение позволяет легко сравнивать различия средних («дельты») по нескольким группам данных. Графики Камминга могут быть созданы с помощью пакетов ESCI, DABEST, или приложения Estimation Stats.

Другие методологии

Помимо разницы средних, существует множество других типов размера эффекта, со своими преимуществами относительно друг друга. Основные типы включают размеры эффекта типа Cohen’s d и коэффициент детерминации (R2) для регрессионного анализа. Для ненормальных распределений существует ряд более надежных способов расчета размеров эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова.

Недостатки в проверке гипотез

Шаблон:Main Шаблон:See also

При проверке гипотез основной целью статистических вычислений является получение p-значения — вероятности увидеть полученный результат или более экстремальный результат, если предполагается, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), практикующему специалисту в области статистики рекомендуется отвергнуть нулевую гипотезу. Сторонники статистики оценки отвергают валидность подхода проверки гипотез[3][7] по следующим причинам:

Преимущества статистики оценки

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемо. По определению, 95 % доверительные интервалы имеют 95 % шанс уловить среднее значение популяции (μ). Эта функция остается неизменной с увеличением размера выборки; что меняется, так это то, что интервал становится меньше (точнее). Кроме того, 95 % доверительные интервалы также являются 83 % интервалами прогноза: доверительный интервал одного эксперимента имеет 83 % вероятность захвата среднего значения любого будущего эксперимента.[3] Таким образом, знание 95 % доверительных интервалов отдельного эксперимента дает аналитику правдоподобный диапазон для среднего значения совокупности и правдоподобные результаты любых последующих экспериментов по репликации.

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервалы оценки позволяют получить более точное восприятие данных, чем отчеты p-значений.[25]

Планирование точности (Precision planning)

Точность оценки формально определяется как 1/дисперсия, и, как и мощность, которая увеличивается с увеличением размера выборки. Как и мощность, высокая точность трудозатратны. Заявки на грант на исследования в идеале должны включать анализ точности/затрат. Сторонники статистики оценки считают, что планирование точности должно заменить мощность, поскольку сама статистическая мощность концептуально связана с проверкой значимости.[3]

Примечания

Шаблон:Примечания