Русская Википедия:Нелинейная регрессия

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Файл:Michaelis-Menten saturation curve of an enzyme reaction-ru.svg
См. уравнение Михаэлиса — Ментен для деталей

Нелинейная регрессия — это вид регрессионного анализа, в котором экспериментальные данные моделируются функцией, являющейся нелинейной комбинацией параметров модели и зависящей от одной и более независимых переменных. Данные аппроксимируются методом последовательных приближений.

Общие положения

Данные состоят из свободных от ошибок независимых переменных x и связанных наблюдаемых зависимых переменных (откликов) y. Каждая переменная y моделируется как случайная величина со средним значением, задаваемым нелинейной функцией f(x,β). Методическая погрешность может присутствовать, но её обработка выходит за границы регрессионного анализа. Если независимые переменные не свободны от ошибок, модель становится Шаблон:Не переведено 5 и также выходит за рамки рассмотрения.

Например, модель Михаэлиса — Ментен для ферментативной кинетики

<math> v = \frac{V_\max\ [\mbox{S}]}{K_m + [\mbox{S}]} </math>

можно записать как

<math> f(x,\boldsymbol\beta)= \frac{\beta_1 x}{\beta_2 + x} </math>

где <math>\beta_1</math> — параметр <math>V_\max</math>, <math>\beta_2</math> — параметр <math>K_m</math>, а [S] — независимая переменная (x). Эта функция нелинейна, поскольку не может быть выражена в виде линейной комбинации <math>\beta_1</math> и <math>\beta_2</math>.

Другими примерами нелинейных функций служат показательные функции, логарифмические функции, тригонометрические функции, степенные функции, гауссова функция и кривые Лоренца. Регрессионный анализ с такими функциями, как показательная или логарифмическая, иногда может быть сведён к линейному случаю и может быть применена стандартная линейная регрессия, но применять её следует осторожно. Подробнее в разделе «Линеаризация» ниже.

В общем случае представления в замкнутом виде (как в случае линейной регрессии) может и не быть. Обычно для определения наилучших оценок параметров используются оптимизационные алгоритмы. В отличие от линейной регрессии может оказаться несколько локальных минимумов оптимизируемой функции и глобальный минимум даже может дать смещённую оценку. На практике используются Шаблон:Не переведено 5 параметров совместно с оптимизационным алгоритмом в попытке найти глобальный минимум суммы квадратов.

Подробнее о нелинейном моделировании см. «Метод наименьших квадратов» и «Шаблон:Не переведено 5».

Регрессионная статистика

Предположение, лежащее в основе этой процедуры, заключается в возможности аппроксимации модели линейной функцией.

<math> f(x_i,\boldsymbol\beta)\approx f^0+\sum_j J_{ij}\beta_j </math>

где <math>J_{ij}=\frac{\partial f(x_i,\boldsymbol\beta)}{\partial \beta_j}</math>. Это следует из того, что оценка по методу наименьших квадратов задаётся формулой

<math>\hat{\boldsymbol{\beta}} \approx \mathbf { (J^TJ)^{-1}J^Ty}.</math>

Статистика нелинейной регрессии вычисляется и используется как статистика линейной регрессии, но вместо X в формулах используется J. Линейная аппроксимация вносит смещение в статистику, поэтому следует более осторожно интерпретировать статистики, полученные из нелинейной модели.

Обычный и взвешенный метод наименьших квадратов

Лучшей аппроксимирующей кривой часто предполагается та, что минимизирует сумму квадратов Шаблон:Не переведено 5. Это подход (обычного) метода наименьших квадратов (МНК). Однако, в случае, когда зависимая переменная не имеет постоянной дисперсии, можно минимизировать сумму взвешенных квадратов. Каждый вес, в идеальном случае, должен быть равен обратной величине от дисперсии наблюдений, однако веса могут пересчитываться в итеративном алгоритме взвешенных наименьших квадратов на каждой итерации.

Линеаризация

Преобразование

Некоторые задачи нелинейной регрессии могут быть сведены к линейным путём подходящего преобразования формулировки модели.

Например, рассмотрим задачу нелинейной регрессии

<math> y = a e^{b x}U \,\!</math>

с параметрами a и b и с мультипликативным множителем ошибки U. Если взять логарифм от обеих частей, мы получим

<math> \ln{(y)} = \ln{(a)} + b x + u, \,\!</math>

где u = ln(U). Из этого можно получить оценку неизвестных параметров с помощью линейной регрессии ln(y) от x и вычисления не потребуют итеративной оптимизации. Однако использование нелинейного преобразования требует осторожности. Влияние значений данных изменится, меняется структура ошибок модели и интерпретация любых полученных результатов, что может привести к нежелательным результатам. С другой стороны, в зависимости от наибольшего источника ошибки, нелинейное преобразование может распределять ошибки в виде распределения Гаусса, так что при применении нелинейного преобразования необходимо учитывать модель.

Например, для уравнения Михаэлиса — Ментен широко используется линейное представление Шаблон:Не переведено 5

<math> \frac{1}{v} = \frac{1}{V_\max} + \frac{K_m}{V_{\max}[S]}</math>.

Тем не менее, из-за сильной чувствительности к ошибкам данных, а также вследствие сильного смещения, это не рекомендуется.

Для распределений ошибок, принадлежащих семейству экспоненциальных распределений, может быть использована связывающая функция для преобразования параметров под обобщённую линейную модель.

Сегментация

Файл:MUSTARD.JPG
Зависимость урожайности горчицы от засолённости почвы

Шаблон:Main

Независимая переменная (скажем, X) может быть разбита на классы или сегменты и может быть осуществлена линейная регрессия посегментно. Сегментированная регрессия с анализом достоверности может дать результат, в котором зависимая переменная или отклик (скажем, Y) ведёт себя различно в различных сегментахШаблон:Sfn .

График справа показывает, что Шаблон:Не переведено 5 (X) начально не оказывает никакого влияния на урожайность (Y) горчицы, пока не будет достигнуто критического или порогового значения, после которого сказывается отрицательное влияние на урожайность[1]

Примеры

Правило Тициуса — Боде в виде математической формулы представляет собой одномерное уравнение нелинейной регресии, связывающее порядковые номера планет солнечной системы, считая от Солнца, с приближёнными значениями больших полуосей их орбит. Точность вполне удовлетворительная не для астрономических целей.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Литература для дальнейшего чтения

Шаблон:Rq Шаблон:Метод наименьших квадратов и регрессионный анализ

  1. Шаблон:Harv Иллюстрация сделана программой Шаблон:Не переведено 5