Русская Википедия:Гессиан функции

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Гессиан функции — симметрическая квадратичная форма[1], описывающая поведение функции во втором порядке.

Для функции <math>f</math>, дважды дифференцируемой в точке <math>x\in \R^n</math>

<math>H(x) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} x_i x_j</math>

или

<math>H(z) = \sum_{i=1}^n \sum_{j=1}^n a_{ij} z_i \overline{z}_j</math>

где <math>a_{ij}=\partial^2 f/\partial x_i \partial x_j</math> (или <math>a_{ij}=\partial^2 f/\partial z_i \partial \overline{z}_j</math>) и функция <math>f</math> задана на <math>n</math>-мерном вещественном пространстве <math>\mathbb{R}^n</math> (или комплексном пространстве <math>\mathbb{C}^n</math>) с координатами <math>x_1,\ldots,x_n</math> (или <math>z_1,\ldots,z_n </math>). В обоих случаях гессиан — квадратичная форма, заданная на касательном пространстве, не меняющаяся при линейных преобразованиях переменных. Гессианом также часто называют и определитель матрицы <math>(a_{ij}),</math> см. ниже.

Матрица Гессе

Матрица этой квадратичной формы образована вторыми частными производными функции. Если все производные существуют, то

<math>H(f) = \begin{bmatrix}

\frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_1\,\partial x_n} \\ \\ \frac{\partial^2 f}{\partial x_2\,\partial x_1} & \frac{\partial^2 f}{\partial x_2^2} & \cdots & \frac{\partial^2 f}{\partial x_2\,\partial x_n} \\ \\ \vdots & \vdots & \ddots & \vdots \\ \\ \frac{\partial^2 f}{\partial x_n\,\partial x_1} & \frac{\partial^2 f}{\partial x_n\,\partial x_2} & \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}</math>

Определитель этой матрицы называется определителем Гессе, или просто гессианомШаблон:Нет АИ.

Матрицы Гессе используются в задачах оптимизации методом Ньютона. Полное вычисление матрицы Гессе может быть затруднительно, поэтому были разработаны квазиньютоновские алгоритмы, основанные на приближённых выражениях для матрицы Гессе. Наиболее известный из них — алгоритм Бройдена — Флетчера — Гольдфарба — Шанно.

Симметрия матрицы Гессе

Смешанные производные функции f — это элементы матрицы Гессе, стоящие не на главной диагонали. Если они непрерывны, то порядок дифференцирования не важен:

<math>\frac {\partial}{\partial x_i} \left( \frac { \partial f }{ \partial x_j} \right) =
      \frac {\partial}{\partial x_j} \left( \frac { \partial f }{ \partial x_i} \right)</math>

Это можно также записать как

<math>f_{x_i x_j} = f_{x_j x_i}, \quad \forall i,j \in \{1,\ldots, n\}.</math>

В этом случае матрица Гессе симметрична.

Критические точки функции

Если градиент <math>f</math> (её векторная производная) равен нулю в некоторой точке <math>x_0</math>, то эта точка называется критической. Достаточным условием существования экстремума в этой точке является знакоопределённость гессиана f (понимаемого в данном случае как квадратичная форма), а именно:

  • если гессиан положительно определён, то <math>x_0</math> — точка локального минимума функции <math>f(x)</math>,
  • если гессиан отрицательно определён, то <math>x_0</math> — точка локального максимума функции <math>f(x)</math>,
  • если гессиан не является знакоопределённым (принимает как положительные, так и отрицательные значения) и невырожден <math>(\det H(f) \neq 0)</math>, то <math>x_0</math> — седловая точка функции <math>f(x)</math>.

Вариации и обобщения

Вектор-функции

Если <math>f</math> — вектор-функция, то есть

<math>f = (f_1, f_2, \dots, f_n),</math>

то её вторые частные производные образуют не матрицу, а тензор ранга 3, который можно рассматривать как массив из <math>n</math> матриц Гессе:

<math> H(f) = \left( H(f_1), \ldots, H(f_n) \right). </math>

При <math>n = 1</math> данный тензор вырождается в обычную матрицу Гессе.

Окаймлённый гессиан

При решении задачи нахождения условного экстремума функции <math>f: \mathbb{R}^n \rightarrow \mathbb{R}</math> с ограничениями

<math> \left\{ \begin{array}{c} g_1(x) = 0, \\ \vdots \\ g_m(x) = 0, \end{array} \right. </math>

где <math>x \in \mathbb{R}^n</math>, <math>m < n</math>, для проверки достаточных условий экстремума можно использовать так называемый окаймлённый гессиан функции Лагранжа <math> L(x,\lambda) </math>, который будет иметь вид[2]

<math> \left( \begin{array}{cc} \dfrac{\partial^2 L}{\partial x^2} &\dfrac{\partial^2 L}{\partial x \partial \lambda} \\ \left( \dfrac{\partial^2 L}{\partial x \partial \lambda} \right)^\mathrm{T} &\dfrac{\partial^2 L}{\partial \lambda^2} \end{array} \right) = \left(

\begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_n} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_n \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_n^2} &\dfrac{\partial g_1}{\partial x_n} &\ldots &\dfrac{\partial g_m}{\partial x_n} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_n} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_n} &0 &\ldots &0 \end{array} \right). </math> Проверка достаточных условий экстремума заключается в вычислении знаков детерминантов определённого набора подматриц окаймлённого гессиана. Именно, если существуют <math>x^* \in \mathbb{R}^n</math> и <math>\lambda^* \in \mathbb{R}^m</math> такие, что <math>\nabla L(x^*,\lambda^*) = 0</math> и

<math> (-1)^m \mbox{det} \left(

\begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_p} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_p \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_p^2} &\dfrac{\partial g_1}{\partial x_p} &\ldots &\dfrac{\partial g_m}{\partial x_p} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_p} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_p} &0 &\ldots &0 \end{array} \right) > 0</math> для <math>p = m+1,\ldots,n</math>, то в точке <math>x^*</math> функция <math>f</math> имеет строгий условный минимум. Если же

<math> (-1)^p \mbox{det} \left(

\begin{array}{cccccc} \dfrac{\partial^2 L}{\partial x_1^2} &\ldots &\dfrac{\partial^2 L}{\partial x_1 \partial x_p} &\dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_1} \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial^2 L}{\partial x_p \partial x_1} &\ldots &\dfrac{\partial^2 L}{\partial x_p^2} &\dfrac{\partial g_1}{\partial x_p} &\ldots &\dfrac{\partial g_m}{\partial x_p} \\ \dfrac{\partial g_1}{\partial x_1} &\ldots &\dfrac{\partial g_1}{\partial x_p} &0 &\ldots &0 \\ \vdots &\ddots &\vdots &\vdots &\ddots &\vdots \\ \dfrac{\partial g_m}{\partial x_1} &\ldots &\dfrac{\partial g_m}{\partial x_p} &0 &\ldots &0 \end{array} \right) > 0</math> для <math>p = m+1,\ldots,n</math>, то в точке <math>x^*</math> функция <math>f</math> имеет строгий условный максимум[3].

История

Понятие введено Людвигом Отто Гессе (1844), который использовал другое название. Термин «гессиан» был введён Джеймсом Джозефом Сильвестром.

См. также

Примечания

Шаблон:Примечания

Ссылки

  • Камынин Л.И. Математический анализ. Т. 1, 2. - 2001.
  • Кудрявцев Л.Д «Краткий курс математического анализа. Т.2. Дифференциальное и интегральное исчисления функций многих переменных. Гармонический анализ», ФИЗМАТЛИТ, 2002, — 424 с. — ISBN 5-9221-0185-4. Или любое другое издание.
  • Голубицкий М., Гийемин В. Устойчивые отображения и их особенности, — М.: Мир, 1977.

Шаблон:Дифференциальное исчисление