Русская Википедия:Коэффициент детерминации

Материал из Онлайн справочника
Версия от 22:59, 23 августа 2023; EducationBot (обсуждение | вклад) (Новая страница: «{{Русская Википедия/Панель перехода}} thumb|300px|[[Оценочная функция Тейла – Сена множества точек выборки (чёрная линия) по сравнению с неробастным методом наименьших квадратов для того же множества (синяя л...»)
(разн.) ← Предыдущая версия | Текущая версия (разн.) | Следующая версия → (разн.)
Перейти к навигацииПерейти к поиску

Файл:Thiel-Sen estimator.svg
Оценочная функция Тейла – Сена множества точек выборки (чёрная линия) по сравнению с неробастным методом наименьших квадратов для того же множества (синяя линия). Зелёная пунктирная линия представляет данные, по которым были сгенерированы выборки.

Коэффициент детерминации (<math>R^2</math> — R-квадрат) — это доля дисперсии зависимой переменной, объясняемая рассматриваемой моделью зависимости, то есть объясняющими переменными. Более точно — это единица минус доля необъяснённой дисперсии (дисперсии случайной ошибки модели, или условной по факторам дисперсии зависимой переменной) в дисперсии зависимой переменной. Его рассматривают как универсальную меру зависимости одной случайной величины от множества других. В частном случае линейной зависимости <math>R^2</math> является квадратом так называемого множественного коэффициента корреляции между зависимой переменной и объясняющими переменными. В частности, для модели парной линейной регрессии коэффициент детерминации равен квадрату обычного коэффициента корреляции между y и x.

Определение и формула

Истинный коэффициент детерминации модели зависимости случайной величины y от факторов x определяется следующим образом:

<math>R^2 =1-\frac {D[y|x]}{D[y]}=1-\frac {\sigma^2}{\sigma^2_y},</math>

где <math>D[y]=\sigma^2_y</math> — дисперсия случайной величины y, а <math>D[y|x]=\sigma^2</math> — условная (по факторам x) дисперсия зависимой переменной (дисперсия ошибки модели).

В данном определении используются истинные параметры, характеризующие распределение случайных величин. Если использовать выборочную оценку значений соответствующих дисперсий, то получим формулу для выборочного коэффициента детерминации (который обычно и подразумевается под коэффициентом детерминации):

<math>R^2 =1-\frac {\hat{\sigma}^2}{\hat{\sigma}^2_y}=1-\frac {SS_{res}/n}{SS_{tot}/n}=1-\frac {SS_{res}} {SS_{tot}},</math>

где <math>SS_{res}=\sum^n_{i=1}e^2_i=\sum^n_{i=1} (y_i-\hat y_i)^2</math> — сумма квадратов остатков регрессии, <math>y_i,\hat y_i</math> — фактические и расчётные значения объясняемой переменной.

<math>SS_{tot}=\sum^n_{i=1} (y_i-\overline y)^2=n \hat \sigma^2_y</math> — общая сумма квадратов.

<math>\bar{y}=\frac{1}{n}\sum_{i=1}^n y_i </math>

В случае линейной регрессии с константой <math>SS_{tot}=SS_{reg}+SS_{res}</math>, где <math>SS_{reg}=\sum^n_{i=1} (\hat y_i-\overline y)^2</math> — объяснённая сумма квадратов, поэтому получаем более простое определение в этом случае — коэффициент детерминации — это доля объяснённой суммы квадратов в общей:

<math>R^2=\frac {SS_{reg}} {SS_{tot}}</math>

Необходимо подчеркнуть, что эта формула справедлива только для модели с константой, в общем случае необходимо использовать предыдущую формулуШаблон:Нет АИ.

Интерпретация

  1. Коэффициент детерминации для модели с константой принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным. Для приемлемых моделей предполагается, что коэффициент детерминации должен быть хотя бы не меньше 50 % (в этом случае коэффициент множественной корреляции превышает по модулю 70 %). Модели с коэффициентом детерминации выше 80 % можно признать достаточно хорошими (коэффициент корреляции превышает 90 %). Значение коэффициента детерминации 1 означает функциональную зависимость между переменными.
  2. При отсутствии статистической связи между объясняемой переменной и факторами, статистика <math>nR^2</math> для линейной регрессии имеет асимптотическое распределение <math>\chi^2(k-1)</math>, где <math>k-1</math> — количество факторов модели (см. тест множителей Лагранжа). В случае линейной регрессии с нормально распределёнными случайными ошибками статистика <math>F=\frac {R^2/(k-1)}{(1-R^2)/(n-k)}</math> имеет точное (для выборок любого объёма) распределение Фишера <math>F(k-1,n-k)</math> (см. F-тест). Информация о распределении этих величин позволяет проверить статистическую значимость регрессионной модели исходя из значения коэффициента детерминации. Фактически в этих тестах проверяется гипотеза о равенстве истинного коэффициента детерминации нулю.
  3. Коэффициент детерминации не может быть отрицательным, данный вывод исходит из свойств коэффициента детерминации. Однако скорректированный коэффициент детерминации вполне может принимать отрицательные значения.

Недостаток R2 и альтернативные показатели

Основная проблема применения (выборочного) <math>R^2</math> заключается в том, что его значение увеличивается (не уменьшается) от добавления в модель новых переменных, даже если эти переменные никакого отношения к объясняемой переменной не имеют. Поэтому сравнение моделей с разным количеством факторов с помощью коэффициента детерминации, вообще говоря, некорректно. Для этих целей можно использовать альтернативные показатели.

Скорректированный (adjusted) R2

Для того, чтобы была возможность сравнивать модели с разным числом факторов так, чтобы число регрессоров (факторов) не влияло на статистику <math>R^2</math> обычно используется скорректированный коэффициент детерминации, в котором используются несмещённые оценки дисперсий:

<math>\bar R^2 = R_{adj}^2 =1-\frac {s^2}{s^2_y}=1-\frac {SS_{res}/(n-k)}{SS_{tot}/(n-1)}=1-(1- R^2) {(n-1) \over (n-k)}\leqslant R^2</math>

который даёт штраф за дополнительно включённые факторы, где n — количество наблюдений, а k — количество параметров.

Данный показатель всегда меньше единицы, но теоретически может быть и меньше нуля (только при очень маленьком значении обычного коэффициента детерминации и большом количестве факторов). Поэтому теряется интерпретация показателя как «доли». Тем не менее, применение показателя в сравнении вполне обоснованно.

Для моделей с одинаковой зависимой переменной и одинаковым объёмом выборки сравнение моделей с помощью скорректированного коэффициента детерминации эквивалентно их сравнению с помощью остаточной дисперсии <math>s^2=SS_{res}/(n-k)</math> или стандартной ошибки модели <math>s</math>. Разница только в том, что последние критерии чем меньше, тем лучше.

Информационные критерии

AIC — информационный критерий Акаике — применяется исключительно для сравнения моделей. Чем меньше значение, тем лучше. Часто используется для сравнения моделей временных рядов с разным количеством лагов.
<math>AIC = {2k \over n} +\ln{SS_{res} \over n}</math>, где k— количество параметров модели.
BIC или SC — байесовский информационный критерий Шварца — используется и интерпретируется аналогично AIC.
<math>BIC = {k \ln{n} \over n} + \ln{SS_{res} \over n}</math>. Даёт больший штраф за включение лишних лагов в модель, чем AIC.

R2-обобщённый (extended)

В случае отсутствия в линейной множественной МНК регрессии константы свойства коэффициента детерминации могут нарушаться для конкретной реализации. Поэтому модели регрессии со свободным членом и без него нельзя сравнивать по критерию <math>R^2</math>. Эта проблема решается с помощью построения обобщённого коэффициента детерминации <math>R_{extended}^2</math>, который совпадает с исходным для случая МНК регрессии со свободным членом, и для которого выполняются четыре свойства, перечисленные выше. Суть этого метода заключается в рассмотрении проекции единичного вектора на плоскость объясняющих переменных.

Для случая регрессии без свободного члена:
<math>R_{extended}^2 = 1- {Y'*(I-P(X))*Y \over Y'*(I-\pi(X))*Y}</math>,
где X — матрица nxk значений факторов, <math>P(X) = X*(X'*X)^{-1}*X'</math> — проектор на плоскость X, <math>\pi(X) = {P(X)*i_n*i_n'*P(X) \over i_n'*P(X)*i_n}</math>, где <math>i_n</math> — единичный вектор nx1.

<math>R_{extended}^2</math> с условием небольшой модификации, также подходит для сравнения между собой регрессий, построенных с помощью: МНК, обобщённого метода наименьших квадратов (ОМНК), условного метода наименьших квадратов (УМНК), обобщённо-условного метода наименьших квадратов (ОУМНК).

История

Основой коэффициента детерминации является регрессионный анализ и коэффициент корреляции. Британский натуралист сэр Фрэнсис Гальтон (1822—1911) основал регрессионный анализ в 1870-х годах. Он, как и его двоюродный брат Чарльз Дарвин, был внуком Эразма Дарвина. Гальтон был известен своей сильной страстью к сбору данных любого рода. Например, он собрал данные о семенах сладкого горошка чина. Сравнивая диаметры семян, он построил то, что сегодня широко известно как корреляционная диаграмма. Связь, обнаруженную им в этой деятельности, он сначала окрестил «реверсией» (разворотом); однако позже он выбрал название «регрессия». Анализируя семена, он обнаружил явление регрессии к центру, согласно которому — после крайне неудачного изменения, последующее изменение снова приближается к среднему: средний диаметр потомства более крупных семян был меньше среднего диаметра семян родителей (изменения разворачиваются). В своих корреляционных диаграммах он нарисовал линию тренда, для которой он использовал коэффициент корреляции в качестве наклона.[1]

Термин «дисперсия» был введен статистиком Рональдом Фишером (1890—1962) в его статье 1918 года под названием «Корреляция между родственниками на основе предположения о менделевском наследовании» (The Correlation between Relatives on the Supposition of Mendelian Inheritance)[2]. Фишер был одним из самых выдающихся статистиков 20-го века и известен своим вкладом в эволюционную теорию. F-критерий, тесно связанный с коэффициентом детерминации, также назван в его честь. Карл Пирсон (1857—1936), основатель биометрики, предоставил формально-математическое обоснование коэффициента корреляции, квадратом которого является коэффициент детерминации.[3]

Коэффициент детерминации подвергся резкой критике в последующие годы. Это произошло потому, что у него есть свойство, что чем больше количество независимых переменных, тем большим он становится. И это не зависит от того, вносят ли дополнительные «объясняющие переменные» вклад в «объяснительную силу». Чтобы учесть это обстоятельство, эконометрик Анри Тейл (1924—2000) в 1961 году предложил скорректированный коэффициент детерминации[4] (Adjusted coefficient of determinationШаблон:Ref-en), который учитывает потерю степени свободы, связанную с ростом количества объясняющих переменных. Скорректированный коэффициент детерминации изменяется за счет штрафа, который накладывается на модель при увеличении числа переменных. Однако немецкий учёный Хорст Ринне подверг критике данный подход[5] за недостаточное штрафование за потерю степени свободы по мере увеличения числа объясняющих переменных.

Замечание

Высокие значения коэффициента детерминации, вообще говоря, не свидетельствуют о наличии причинно-следственной зависимости между переменными (так же как и в случае обычного коэффициента корреляции). Например, если объясняемая переменная и факторы, на самом деле не связанные с объясняемой переменой, имеют возрастающую динамику, то коэффициент детерминации будет достаточно высок. Поэтому логическая и смысловая адекватность модели имеют первостепенную важность. Кроме того, необходимо использовать критерии для всестороннего анализа качества модели.

См. также

Примечания

Шаблон:Примечания

Литература

  • Бахрушин В. Е. Методы оценивания характеристик нелинейных статистических связей // Системные технологии. — 2011. — № 2(73). — С. 9—14.[1]

Ссылки

  1. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 116.Шаблон:Ref-de
  2. Ronald Aylmer Fisher: The correlation between relatives on the supposition of Mendelian inheritance. In: Trans. Roy. Soc. Edinb. 52, 1918, S. 399—433.Шаблон:Ref-en
  3. Franka Miriam Brückler: Geschichte der Mathematik kompakt: Das Wichtigste aus Analysis, Wahrscheinlichkeitstheorie, angewandter Mathematik, Topologie und Mengenlehre. Springer-Verlag, 2017, ISBN 978-3-662-55573-6, S. 117.Шаблон:Ref-de
  4. Henri Theil: Economic Forecasts and Policy. Amsterdam 1961, S. 213.Шаблон:Ref-en
  5. Horst Rinne: Ökonometrie: Grundlagen der Makroökonometrie. Vahlen, 2004.Шаблон:Ref-de