Русская Википедия:Линейная регрессия

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

y=ax+b
Пример линии (красная), построенной с использованием линейной регрессии

Линейная регрессия (Шаблон:Lang-en) — используемая в статистике регрессионная модель зависимости одной (объясняемой, зависимой) переменной <math>y</math> от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) <math>x</math> с линейной функцией зависимости.

Модель линейной регрессии является часто используемой и наиболее изученной в эконометрике. А именно изучены свойства оценок параметров, получаемых различными методами при предположениях о вероятностных характеристиках факторов, и случайных ошибок модели. Предельные (асимптотические) свойства оценок нелинейных моделей также выводятся исходя из аппроксимации последних линейными моделями. С эконометрической точки зрения более важное значение имеет линейность по параметрам, чем линейность по факторам модели.

Определение

Регрессионная модель

<math>y=f(x,b)+\varepsilon, ~E(\varepsilon)</math>,

где <math>b</math> — параметры модели, <math>\varepsilon</math> — случайная ошибка модели; называется линейной регрессией, если функция регрессии <math>f(x,b)</math> имеет вид

<math>f(x,b)=b_0+b_1 x_1+b_2 x_2+...+b_k x_k</math>,

где <math>b_j</math> — параметры (коэффициенты) регрессии, <math>x_j</math> — регрессоры (факторы модели), k — количество факторов моделиШаблон:Sfn.

Коэффициенты линейной регрессии показывают скорость изменения зависимой переменной по данному фактору, при фиксированных остальных факторах (в линейной модели эта скорость постоянна):

<math>\forall j \quad ~b_j=\frac {\partial f}{\partial x_j}=const</math>

Параметр <math>b_0</math>, при котором нет факторов, называют часто константой. Формально — это значение функции при нулевом значении всех факторов. Для аналитических целей удобно считать, что константа — это параметр при «факторе», равном 1 (или другой произвольной постоянной, поэтому константой называют также и этот «фактор»). В таком случае, если перенумеровать факторы и параметры исходной модели с учетом этого (оставив обозначение общего количества факторов — k), то линейную функцию регрессии можно записать в следующем виде, формально не содержащем константу:

<math>f(x,b)=b_1 x_1 + b_2 x_2 + \ldots + b_k x_k=\sum^k_{j=1}b_j x_j=x^Tb</math>,

где <math>x^T=(x_1,x_2,...,x_k)</math> — вектор регрессоров, <math>b=(b_1,b_2, \ldots,b_k)^T</math> — вектор-столбец параметров (коэффициентов).

Линейная модель может быть как с константой, так и без константы. Тогда в этом представлении первый фактор либо равен единице, либо является обычным фактором соответственно.

Парная и множественная регрессия

В частном случае, когда фактор единственный (без учёта константы), говорят о парной или простейшей линейной регрессии:

<math>y_t=a+b x_t+\varepsilon_t</math>

Когда количество факторов (без учёта константы) больше одного, то говорят о множественной регрессии:

<math>Y = b_0 + b_1 x_{i1} + ... + b_j x_{ij} + ... + b_k x_{ik} + e_i</math>

Примеры

Модель затрат организации (без указания случайной ошибки)

<math>TC=FC+VC=FC+v \cdot Q</math>
  • <math>TC</math> — общие затраты
  • <math>FC</math> — постоянные затраты (не зависящие от объёма производства)
  • <math>VC</math> — переменные затраты, пропорциональные объёму производства
  • <math>v</math> — удельные или средние (на единицу продукции) переменные затраты
  • <math>Q</math> — объём производства.

Простейшая модель потребительских расходов (Кейнс)

<math>C=a+bY+\varepsilon</math>
  • <math>C</math> — потребительские расходы
  • <math>Y</math> — располагаемый доход
  • <math>b</math> — «предельная склонность к потреблению»
  • <math>a</math> — автономное (не зависящее от дохода) потребление.

Матричное представление

Пусть дана выборка объёмом n наблюдений переменных y и x. Обозначим t — номер наблюдения в выборке. Тогда <math>y_t</math> — значение переменной y в t-м наблюдении, <math>x_{tj}</math> — значение j-го фактора в t-м наблюдении. Соответственно, <math>x^T_t=(x_{t1},x_{t2},...,x_{tk})</math> — вектор регрессоров в t-м наблюдении. Тогда линейная регрессионная зависимость имеет место в каждом наблюдении:

<math>y_t=b_1 x_{t1}+b_2 x_{t2}+...+b_k x_{tk}=\sum^k_{j=1}b_j x_{tj}=x^T_t b+\varepsilon_t~,~E(\varepsilon_t)=0~,~t=1..n</math>

Введём обозначения:

<math>y=

\begin{pmatrix} y_{1}\\ y_{2}\\ ...\\ y_{n}\\ \end{pmatrix}</math> — вектор наблюдений зависимой переменой y

<math>X=

\begin{pmatrix} x_{11}&x_{12}& ...& x_{1k}\\ x_{21}&x_{22}& ...& x_{2k}\\ ...\\ x_{n1}& x_{n2}& ...&x_{nk}\\ \end{pmatrix}</math> — матрица факторов.

<math>

\varepsilon= \begin{pmatrix} \varepsilon_{1}\\ \varepsilon_{2}\\ ...\\ \varepsilon_{n}\\ \end{pmatrix}</math> — вектор случайных ошибок.

Тогда модель линейной регрессии можно представить в матричной форме:

<math>y=Xb+\varepsilon</math>

Классическая линейная регрессия

В классической линейной регрессии предполагается, что наряду со стандартным условием <math>E(\varepsilon_t)=0</math> выполнены также следующие предположения (условия Гаусса-Маркова):

  1. Гомоскедастичность (постоянная или одинаковая дисперсия) или отсутствие гетероскедастичности случайных ошибок модели: <math>V(\varepsilon_t)=\sigma^2=const</math>
  2. Отсутствие автокорреляции случайных ошибок: <math>\forall i,j,~ i \not = j ~~cov(\varepsilon_i,\varepsilon_j)=0</math>

Данные предположения в матричном представлении модели формулируются в виде одного предположения о структуре ковариационной матрицы вектора случайных ошибок: <math>V(\varepsilon)=\sigma^2 I_n</math>

Помимо указанных предположений, в классической модели факторы предполагаются детерминированными (нестохастическими). Кроме того, формально требуется, чтобы матрица <math>X</math> имела полный ранг (<math>k</math>), то есть предполагается, что отсутствует полная коллинеарность факторов.

При выполнении классических предположений обычный метод наименьших квадратов позволяет получить достаточно качественные оценки параметров модели, а именно: они являются несмещёнными, состоятельными и наиболее эффективными оценками.

Методы оценки

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Метод наименьших квадратов и регрессионный анализ Шаблон:Машинное обучение

Шаблон:Нет ссылок