Русская Википедия:Расстояние Кульбака — Лейблера

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Шаблон:Теория информации Расстояние (расхождение, дивергенция) Ку́льбака — Ле́йблера (Шаблон:Lang-en), РКЛ, информационное расхождение, различающая информация, информационный выигрыш, относительная энтропия (Шаблон:Lang-en)[1] — неотрицательнозначный функционал, являющийся несимметричной мерой удалённости друг от друга двух вероятностных распределений[2], определённых на общем пространстве элементарных событий. Часто применяется в теории информации и математической статистике.

Определение и интерпретации

Расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> (или, условно говоря, «расстояние от <math>P</math> до <math>Q</math>») обозначается <math>D_{\mathrm{KL}}(P\parallel Q)</math>. Первый аргумент функционала (распределение <math>P</math>) обычно интерпретируется как истинное или постулируемое априори распределение, второй (распределение <math>Q</math>) — как предполагаемое (проверяемое). Распределение <math>Q</math> часто служит приближением распределения <math>P</math>. Значение функционала можно понимать как количество неучтённой информации распределения <math>P</math>, если <math>Q</math> было использовано для приближения <math>P</math>. Данная мера расстояния в теории информации также интерпретируется как величина потерь информации при замене истинного распределения <math>P</math> на распределение <math>Q</math>.

В общем случае, если <math>\mu</math> — любая мера на <math>X</math>, для которой существуют абсолютно непрерывные относительно <math>\mu</math> функции <math>p = \frac{{\rm d}P}{{\rm d}\mu}</math> и <math>q = \frac{{\rm d}Q}{{\rm d}\mu}</math>, тогда расхождение Кульбака — Лейблера распределения <math>Q</math> относительно <math>P</math> определяется как

<math>D_{\mathrm{KL}}(P\parallel Q) = \int_X p \, \log \frac{p}{q} \, {\rm d}\mu</math>.

Основание логарифма в этой формуле существенной роли не играет. Его выбор позволяет зафиксировать конкретный вид функционала из семейства эквивалентных функционалов и равносилен выбору единицы измерения расхождения Кульбака — Лейблера (подобно ситуации с вычислением энтропии), поэтому возможно применение логарифма с любым основанием, большим единицы. Другими словами, функционал определён с точностью до положительного постоянного сомножителя. Наиболее употребительными являются натуральный логарифм (по соображениям удобства), а также двоичный логарифм — для измерения расхождения в битах (обычно используется в теории информации). Расхождение Кульбака — Лейблера является безразмерной величиной независимо от размерности исходных случайных величин.

Хотя расстояние Кульбака — Лейблера (РКЛ) часто рассматривается как способ измерения расстояния между вероятностными распределениями, данный функционал не является метрикой в пространстве распределений, поскольку не удовлетворяет неравенству треугольника и не удовлетворяет аксиоме симметричности: <math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>. Тем не менее, его инфинитезимальная форма, особенно его гессиан, даёт метрический тензор, который известен как информационная метрика Фишера.

Расстояние Кульбака — Лейблера — это частный случай более общего класса расхождений, которые называются f-расхождения, а также частный случай класса расхождений Брэгмана. РКЛ — это единственное расхождение вероятностей, которое принадлежит и тому и другому классу.

РКЛ изначально было представлено Соломоном Кульбаком и Ричардом Лейблером в 1951 году как направленное расхождение между двумя распределениями. Это обсуждается в тексте Кульбака «Информационная теория и статистика»[1].

Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(P\parallel Q)</math> иногда также интерпретируют как информационный выигрыш, достигнутый, если <math>P</math> использовано вместо <math>Q</math>. Иногда для РКЛ используют вносящие путаницу названия относительная энтропия <math>P</math> относительно <math>Q</math> (обозначается <math>H(P\mid Q)</math>) или перекрёстная энтропия.

Существуют различные соглашения относительно того, как читать обозначение<math>D_{\mathrm{KL}}(P\parallel Q)</math>. Часто его называют просто расхождением или расстоянием между <math>P</math> и <math>Q</math>, однако это не позволяет передать фундаментальную асимметрию в соотношении. Иногда говорят «расхождение <math>P</math> из (относительно) <math>Q</math>» или, условно говоря, «расстояние из <math>Q</math> в <math>P</math>» (обычно в контексте относительной энтропии или информационного выигрыша). При этом распределение <math>Q</math> интерпретируется как истинное.

Частные определения и определения через производную Радона—Никодима

Для дискретных вероятностных распределений <math>P</math> и <math>Q</math> с числом элементарных событий <math>n</math> расхождение Кульбака — Лейблера распределения <math>Q</math> относительно распределения <math>P</math> (или «расстояние от <math>P</math> до <math>Q</math>») определяется[3] как:

<math>D_{KL}(P\parallel Q) = \sum\limits_{i=1}^n p_i \log \frac{p_i}{q_i}</math>.

Другими словами, это математическое ожидание логарифмической разности между вероятностями <math>p</math> и <math>q</math>, где математическое ожидание берётся по распределению <math>P</math>. РКЛ определено, только если <math>q_i=0 \Rightarrow p_i=0</math>, для всех <math>i=1,...,n</math> (абсолютная непрерывность). Всякий раз, когда <math>p_i=0</math>, вклад <math>i</math>-го члена интерпретируется как ноль, потому что <math>\lim_{x \to 0} x \log(x) = 0</math>.

Для <math>k</math>-мерных абсолютно непрерывных распределений <math>P</math> и <math>Q</math> расстояние Кульбака — Лейблера задаётся выражением[4]

<math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \, p(x)\log\frac{p(x)}{q(x)} \, {\rm d}x</math>,

где <math>p(x)</math> и <math>q(x)</math> — функции плотности распределений <math>P</math> и <math>Q</math> соответственно, определённые на интервале <math>X \subseteq R^k</math>.

В более общем смысле, если <math>P</math> и <math>Q</math> — вероятностные меры на множестве <math>X</math>, и <math>P</math> абсолютно непрерывна относительно <math>Q</math>, тогда РКЛ от <math>P</math> до <math>Q</math> определено как

<math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \log\frac{{\rm d}P}{{\rm d}Q} \, {\rm d}P</math>,

где <math>\frac{{\rm d}P}{{\rm d}Q}</math> — это производная Радона — Никодима <math>P</math> относительно <math>Q</math>, и при условии, что выражение справа существует. Эквивалентно это может быть записано как

<math>D_{\mathrm{KL}}(P\parallel Q) = \int_X \log\!\left(\frac{{\rm d}P}{{\rm d}Q}\right) \frac{{\rm d}P}{{\rm d}Q} \, {\rm d}Q</math>.

Следует заметить, что использование производной Радона — Никодима служит формальным средством записи данных выражений, однако не раскрывает их содержательный смысл.

Функционал дивергенции Кульбака — Лейблера является безразмерным, однако его значения могут иметь различные единицы измерения. Так, если логарифмы в этих формулах берутся по основанию 2, то дивергенция (она же — информация, с точки зрения теории информации) измеряется в битах; если по основанию e (с натуральным основанием), то дивергенция (информация) измеряется в натах. Большинство формул, содержащих РКЛ, сохраняют смысл независимо от основания логарифма.

Характеризация

Артур Хобсон доказал, что расстояние Кульбака — Лейблера — это единственная мера разницы между вероятностными распределениями, которая удовлетворяет некоторым желательным свойствам, являющимся каноническими расширениями для появляющихся в часто используемых характеризациях энтропии[5]. Следовательно, взаимная информация — это единственная мера взаимной зависимости, которая подчиняется некоторым связанным условиям, так как она может быть определена в терминах РКЛ.

Существует также Байесовская характеризация расстояния Кульбака — Лейблера[6].

Мотивация

В теории информации теорема Крафта — Макмиллана устанавливает, что любую непосредственно декодируемую схему кодирования для кодировки сообщения для идентификации одного значения <math>x_i\subset X</math>, можно рассматривать как представление неявного распределения вероятностей <math>q(x_i)=2^{-I_i}</math> над <math>X</math>, где <math>I_i</math> — длина кода для <math>x_i</math> в битах. Поэтому РКЛ может быть интерпретировано как ожидаемая дополнительная длина сообщения с нулевой отметки, которая должна быть передана, если код, который является оптимальным для данного (неправильного) распределения <math>Q</math>, используется по сравнению с использованием кода на основе истинного распределения <math>P</math>.

<math display="inline"> \begin{matrix} D_{\mathrm{KL}}(P\parallel Q) = -\sum_x p(x) \log q(x) + \sum_x p(x) \log p(x) = H(P,Q)-H(P)\, \! \end{matrix}</math>, где <math>H(P,Q )</math> — перекрестная энтропия <math>P</math> и <math>Q</math>, <math>H(P)</math> — энтропия <math>P</math>.

Также можно отметить, что существует связь между РКЛ и «функцией скорости» в теории больших отклонений[7][8].

Свойства

  • Расстояние Кульбака — Лейблера всегда неотрицательно, <math>D_{\mathrm{KL}}(P\parallel Q) \geq 0,</math> — это результат, который известен как неравенство Гиббса, <math>D_{KL}(P\parallel Q)=0 \iff P=Q</math> почти всюду. Энтропия <math>H(P)</math>, таким образом, задаёт минимальное значение перекрестной энтропии <math>H(P,Q)</math>, ожидаемое число дополнительных битов, требуемых, когда используется код, основанный на <math>Q</math>, а не на <math>P</math>. Поэтому РКЛ представляет собой ожидаемое число дополнительных битов, которые должны быть переданы, чтобы определить значение <math>x\subset X</math>, если используется код, соответствующий распределению вероятностей <math>Q</math>, а не «истинному» распределению <math>P</math>.
  • Расстояние Кульбака — Лейблера не симметрично: <math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>.
  • Расстояние Кульбака — Лейблера остается строго определённым для непрерывных распределений и, кроме того, инвариантно относительно замены переменных. Например, если сделана замена переменной <math>x</math> на переменную <math>y(x)</math>, тогда, поскольку <math>P(x)dx=P(y)dy</math> и <math>Q(x)dx=Q(y)</math>, РКЛ может быть переписано в виде:
<math display="inline">D_{\mathrm{KL}}(P\parallel Q)

= \int_{x_a}^{x_b}P(x)\log\left(\frac{P(x)}{Q(x)}\right)\,dx = \int_{y_a}^{y_b}P(y)\log\left(\frac{P(y)dy/dx}{Q(y)dy/dx}\right)\,dy = \int_{y_a}^{y_b}P(y)\log\left(\frac{P(y)}{Q(y)}\right)\,dy</math>,

где <math>y_a=y(x_a)</math> и <math>y_b=y(x_b)</math>. Несмотря на предположение, что преобразование было непрерывным, это не необходимо в данном случае. Это также показывает, что РКЛ задаёт величину согласованную с размерностью, так как если <math>x</math> — размерная переменная, то <math>P(x)</math> и <math>Q(x)</math> также имеют размерность, так как <math>P(x)dx</math> является безразмерной величиной. Тем не менее, выражение под логарифмом остаётся безразмерным, как и должно. Поэтому расстояние Кульбака — Лейблера можно рассматривать, в некотором смысле, как более фундаментальную величину, чем некоторые другие свойства в теории информации[9] (такие как собственная информация или энтропия Шеннона), которые могут стать неопределёнными или отрицательными для недискретных вероятностей.
  • РКЛ аддитивна для независимых распределений во многом таким же образом, как энтропия Шеннона. Если <math>P_1, P_2</math> являются независимыми распределениями с совместным распределением <math>P(x,y) = P_1(x)P_2(y)</math> и, аналогично, <math>Q(x,y) = Q_1(x)Q_2(y)</math>, то <math>D_{\mathrm{KL}}(P \parallel Q) = D_{\mathrm{KL}}(P_1 \parallel Q_1) + D_{\mathrm{KL}}(P_2 \parallel Q_2).</math>

Расстояние Кульбака — Лейблера для многомерного нормального распределения

Допустим, что мы имеем два многомерных нормальных распределения, со средними <math>\mu_0, \mu_1</math> и с (обратимыми) матрицами ковариаций <math>\Sigma_0, \Sigma_1</math>. Если два распределения имеют одинаковую размерность k, то РКЛ между распределениями следующее[10]:

<math>D_\text{KL}(\mathcal{N}_0 \parallel \mathcal{N}_1) = { 1 \over 2 } \left( \mathrm{tr} \left( \Sigma_1^{-1} \Sigma_0 \right) + \left( \mu_1 - \mu_0\right)^\top \Sigma_1^{-1} ( \mu_1 - \mu_0 ) - k + \ln \left( { \det \Sigma_1 \over \det \Sigma_0 } \right) \right).</math>

Логарифм в последнем члене должен быть взят по основанию e, так как все члены, кроме последнего, являются натуральными логарифмами выражений, которые являются либо любыми множителями функции плотности, либо, в противном случае, возникают естественным образом. Поэтому уравнение дает результат, измеряемый в натах. Целиком разделив это выражение на loge2, получим распределение в битах.

Отношение к метрикам

Можно было бы назвать РКЛ «метрикой» в пространстве вероятностных распределений, но это было бы некорректно, так как оно не симметрично<math>D_{\mathrm{KL}}(P\parallel Q) \neq D_{\mathrm{KL}}(Q\parallel P)</math>, и не удовлетворяет неравенству треугольника. Все-таки, будучи предварительной метрикой, она порождает топологию в пространстве вероятностных распределений. Более конкретно, если <math>\{P_1,P_2,\cdots\}</math>- это последовательность распределений такая, что <math>\lim_{n \rightarrow \infty} D_{\mathrm{KL}}(P_n\parallel Q) = 0</math>, тогда говорят, что <math>P_n \xrightarrow{D} Q</math>. Из неравенства Пинскера следует, что — <math>P_n \xrightarrow{\mathrm{D}} P \Rightarrow P_n \xrightarrow{\mathrm{TV}} P</math>, где последнее нужно для сходимости по вариации.

Согласно Альфреду Реньи (1970, 1961).[11][12]

Информационная метрика Фишера

Однако, расстояние Кульбака — Лейблера и напрямую связано с метрикой, а именно с информационной метрикой Фишера. Предположим, что у нас имеются вероятностные распределения P и Q, они оба параметризованы одинаковым (возможно многомерным) параметром <math>\theta</math>. Рассмотрим теперь два близких значения <math>P = P(\theta)</math> и <math>Q = P(\theta_0)</math>, таких что параметр <math>\theta</math> отличается только на небольшое число от параметра <math>\theta_0</math>. А именно, разлагая в ряд Тейлора вплоть до первого порядка, имеем (используя соглашение Эйнштейна)

<math>P(\theta) = P(\theta_0) + \Delta\theta^jP_j(\theta_0) + \cdots</math>,

где <math>\Delta\theta^j = (\theta - \theta_0)^j</math> — малое изменение <math>\theta</math> в j-м направлении, а <math>P_{j}(\theta_0) = \frac{\partial P}{\partial \theta^j}(\theta_0)</math> соответствующая скорость изменения распределения вероятностей. Так как РКЛ имеет абсолютный минимум, равный 0, при P=Q, то есть <math>\theta=\theta_0</math> то РКЛ имеет второй порядок малости по параметрам <math>\Delta\theta^j</math>. Более формально, как и для любого минимума, первая производная расхождения обращается в ноль <math>\left.\frac{\partial}{\partial \theta^j}\right|_{\theta = \theta_0} D_{KL}(P(\theta) \parallel P(\theta_0)) = 0,</math>

и разложение Тейлора начинается со второго порядка малости

<math>D_{\mathrm{KL}}(P(\theta)\parallel P(\theta_0)) = \frac{1}{2} \Delta\theta^j\Delta\theta^k g_{jk}(\theta_0) + \cdots</math>,

где Гессиан <math>g_{jk}(\theta)</math> должен быть неотрицательным. Если позволить <math>\theta_0</math> изменяться (и опуская подиндекс 0), то Гессиан <math>g_{jk}(\theta)</math> определяет (возможно, вырожденную) метрику Римана в пространстве параметра <math>\theta</math>, называемую информационной метрикой Фишера.

Отношение к другим величинам информационной теории

Многие другие величины информационной теории могут быть интерпретированы как применение расстояния Кульбака — Лейблера к частным случаям.

Собственная информация <math>D_{\mathrm{KL}}(\delta_{im} \parallel \{ p_i \}) </math> является РКЛ вероятностного распределения <math>P(i)</math> из символа Кронекера, представляющего определённость в том, что <math>i=m</math> — то есть число дополнительных бит, которые должны быть переданы для определения <math>i</math>, если только вероятностное распределение <math>P(i)</math> доступно для получателя, не факт, что <math>i=m</math>.

Взаимная информация -

<math>\begin{align}I(X;Y) & = D_{\mathrm{KL}}(P(X,Y) \parallel P(X)P(Y) ) \\ & = \operatorname{E}_X \{D_{\mathrm{KL}}(P(Y\mid X) \parallel P(Y) ) \} \\ & = \operatorname{E}_Y \{D_{\mathrm{KL}}(P(X\mid Y) \parallel P(X) ) \}\end{align} </math>

является РКЛ произведения <math>P(X)P(Y)</math> двух маргинальных вероятностных распределений из совместного вероятностного распределения <math>P(X,Y)</math> — то есть ожидаемое число дополнительных битов, которые должны быть посланы, чтобы определить <math>X</math> и <math>Y</math>, если они закодированы, используя только их маргинальное распределение вместо совместного распределения. Эквивалентно, если совместная вероятность <math>P(X,Y)</math> известна, это ожидаемое число дополнительных битов, которые должны быть в среднем отправлены для определения <math>Y</math>, если значение <math>X</math> уже не известны получателю.

Энтропия Шеннона -

<math>\begin{align}

\Eta(X) & = \operatorname{E}[\operatorname{I}_X(x)] \\
& = \log(N) - D_\text{KL}(P(X) \parallel P_U(X) )

\end{align} </math>

это число битов, которые должны быть переданы для идентификации <math>X</math> из <math>N</math> одинаково вероятных исходов, это меньше, чем РКЛ равномерного распределения <math>P_U(X)</math> из истинного распределения <math>P(X)</math> — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение <math>X</math> закодировано согласно с равномерным распределением <math>P_U(X)</math>, а не истинным распределение <math>P(X)</math>.

Условная энтропия -

<math>\begin{align}

\Eta(X \mid Y) & = \log(N) - D_\text{KL}(P(X,Y) \parallel P_U(X) P(Y)) \\
& = \log(N) - D_\text{KL}(P(X,Y) \parallel P(X) P(Y) ) - D_\text{KL}(P(X) \parallel P_U(X)) \\
& = \Eta(X) - \operatorname{I}(X;Y) \\
& = \log(N) - \operatorname{E}_Y \bigl[D_\text{KL}(P(X\mid Y) \parallel P_U(X)) \bigr]

\end{align} </math>

это число битов, которые должны быть переданы для идентификации <math>X</math> из <math>N</math> одинаково вероятных исходов, это меньше, чем РКЛ произведения распределений <math>P_U(X) </math> из истинного совместного распределения <math>P(X,Y)</math> — то есть меньше ожидаемого числа сохраненных битов, которые должны быть отправлены, если значение <math>X</math> закодировано согласно с равномерным распределением <math>P_U(X)</math>, а не с условным распределением <math>P(X \mid Y)</math> данных <math>X</math> и <math>Y</math>.

Перекрестная энтропия между двумя вероятностными распределениями измеряет среднее число битов, необходимых для определения события из множества возможных, если использована схема кодирования, основанная на данном распределении вероятности <math>Q</math>, а не «истинного» распределения <math>P</math>. Перекрестная энтропия для двух распределений <math>P</math> и <math>Q</math> над тем же вероятностным пространством определяется так: <math>H(p, q) = \operatorname{E}_p[-\log q] = H(p) + D_{\mathrm{KL}}(p \parallel q).</math>

Расстояние Кульбака — Лейблера и Байесовская модификация

В Байесовской статистике Расстояние Кульбака — Лейблера может быть использовано как мера информационного выигрыша при переходе от априорного к апостериорному вероятностному распределению. Если обнаружен некоторый новый факт <math>Y=y</math>, оно может быть использовано для модификации (априорного) распределения вероятностей <math>p(x\mid I) </math> для <math>X </math> в новое (апостериорное) распределение вероятностей <math>p(x\mid y, I) </math> используя Теорему Байеса:

<math>p(x\mid y,I) = \frac{p(y\mid x,I) p(x\mid I)}{p(y\mid I)}. </math>

Это распределение имеет новую энтропию

<math>H\big( p(\cdot\mid y,I) \big) = -\sum_x p(x\mid y,I) \log p(x\mid y,I), </math>

которая может быть меньше или больше, чем изначальная энтропия <math>H\big( p(\cdot\mid I) \big) </math>. Однако, с точки зрения нового распределения вероятностей можно оценить, что использование исходного кода, основанного на <math>p(x\mid I) </math> вместо нового кода, основанного на <math>p(x\mid y, I) </math>, добавило бы ожидаемое число битов — <math>D_{\mathrm{KL}}\big(p(\cdot\mid y,I) \mid p(\cdot\mid I) \big) = \sum_x p(x\mid y,I) \log \frac{p(x\mid y,I)}{p(x\mid I)} </math> к длине сообщения. Это, таким образом, представляет собой количество полезной информации, или информационного выигрыша, касательно <math>X </math>, которое было получено при обнаружении, что <math>Y=y</math>.

Если впоследствии приходит еще один фрагмент данных, <math>Y_2=y_2 </math>, то вероятностное распределение для x может быть обновлено далее, чтобы дать новое лучшее предположение <math>p(x\mid y_1,y_2, I) </math>. Если исследовать заново информационный выигрыш для использования <math>p(x\mid y_1, I) </math>, а не <math>p(x\mid I) </math>, оказывается, что это может быть больше или меньше, чем предполагалось ранее: <math>\sum_x p(x\mid y_1,y_2,I) \log \frac{p(x\mid y_1,y_2,I)}{p(x\mid I)} </math>, может быть <math>\leq </math> или <math>> </math>, чем <math>\displaystyle\sum_x p(x\mid y_1,I) \log \frac{p(x\mid y_1,I)}{p(x\mid I)} </math>, и поэтому общий информационный выигрыш не выполняет неравенство треугольника:

<math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I) \parallel p(\cdot\mid I) \big) </math>, может быть больше, меньше или равно <math>D_{\mathrm{KL}} \big( p(\cdot\mid y_1,y_2,I)\parallel p(\cdot\mid y_1,I) \big) + D_{\mathrm{KL}} \big( p(\cdot \mid y_1,I) \parallel p(x\mid I) \big). </math>

Все, что можно сказать, что в среднем, беря среднее, используя <math>p(y_2\mid y_1, x, I) </math>, обе стороны будут давать среднее значение.

Экспериментальная модель Байеса

Широко распространённая цель в экспериментальной модели Байеса — максимизировать ожидаемое РКЛ между априорным и апостериорным распределениями.[13] Когда апостериорное приближено к Гауссовому распределению, модель, максимизирующая ожидаемое РКЛ, называется Байеса d-оптимальное.

Различающая информация

Расстояние Кульбака — Лейблера <math>D_{\mathrm{KL}}(p(x\mid H_1)\parallel p(x\mid H_0))</math> может также быть интерпретировано как ожидаемая различающая информация для <math>H_1 </math>над <math>H_0 </math>: средняя информация на одну выборку для различия в пользу гипотезы <math>H_1 </math>, против гипотезы <math>H_0 </math>, когда гипотеза <math>H_1 </math> верна[14]. Еще одно имя для этой величины, данное Ирвингом Джоном Гудом, это ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math>, ожидаемая из каждой выборки.

Ожидаемая масса доказательства для <math>H_1 </math>над <math>H_0 </math> это не то же что информационный выигрыш, ожидаемый, например, для вероятностного распределения p(H) гипотезы, <math>D_\mathrm{KL}( p(x\mid H_1) \parallel p(x\mid H_0) ) \neq IG = D_\mathrm{KL}( p(H\mid x) \parallel p(H\mid I) ). </math>.

Любая из двух величин может быть использована как функция полезности в Байесовской экспериментальной форме, для выбора оптимального следующего вопроса для исследования, но вообще они приведут скорее к разным экспериментальным стратегиям.

В шкале энтропии информационного выигрыша очень маленькая разница между почти уверенностью и полной уверенностью — кодирование с почти полной уверенностью вряд ли потребует больше битов, чем кодирование с полной уверенностью. С другой стороны, в logit шкале подразумевается вес доказательств, и разница между двумя огромна, едва ли не бесконечна. Это может отражать разницу между почти уверенностью (на вероятностном уровне), скажем, в том, что Гипотеза Римана верна, и с полной уверенностью, что она верна, потому что имеется математическое доказательство. Две разные шкалы функции потерь для неопределенности обе являются полезными, согласно с тем, насколько хорошо каждая отражает конкретные обстоятельства рассматриваемой проблемы в задаче.

Принцип минимальной различающей информации

Идея РКЛ как различающей информации привела Кульбака к предположению Принципа Минимальной различающей информации (Шаблон:Lang-en): учитывая новые факты, новое распределение <math>f</math> следует выбрать, из тех, которые трудно отличить от первоначального распределения <math>f_0 </math>; потому что новые данные производят так мало информационного выигрыша <math>D_{KL}(f\parallel f_0) </math> как только возможно.

Например, если мы имеем априорное распределение <math>p(x, a)</math> над <math>x</math> и <math>a</math>, и потом изучим истинное распределение <math>a</math> и <math>u(a)</math>. РКЛ между новым совместным распределением для <math>x</math> и <math>a</math>, <math>q(x\mid a) u(a)</math>, и прежнего априорного распределения было бы: <math>D_\mathrm{KL}(q(x\mid a)u(a)\parallel p(x,a)) = \operatorname{E}_{u(a)}\{D_\mathrm{KL}(q(x\mid a)\parallel p(x\mid a))\} + D_\mathrm{KL}(u(a)\parallel p(a)), </math>

то есть сумма РКЛ <math>p(a)</math> априорного распределения для <math>a</math> из обновленного распределения <math>u(a)</math>, плюс ожидаемое значение (используемое вероятностное распределение <math>u(a)</math>) РКЛ априорного условного распределения <math>p(x\mid a)</math> из нового распределения <math>p(x\mid a)</math>. (Заметьте что часто позднее ожидаемое значение называется условное РКЛ (или условная относительная энтропия) и обозначается <math>D_{KL}(q(x\mid a)\parallel p(x\mid a)) </math>[15]. Это минимизирует, если <math>q(x\mid a) = p(x\mid a)</math> над общим содержанием <math>u(a)</math>. И мы замечаем что этот результат объединяет теорему Байеса, если новое распределение <math>u(a)</math> это по факту функция, уверенно представляющая, что <math>a</math> имеет одно частное значение.

Минимальная различающая информация может быть рассмотрена как расширение Принципа безразличия Лапласа (другое его название — принцип недостаточного основания) и Принципа максимума энтропии Джейнса. В частности, это естественное расширение принципа максимума энтропии из дискретного до непрерывного распределения, для которого энтропия Шеннона становится не очень удобной (см. дифференциальная энтропия), но РКЛ продолжает быть столь же актуальной.

В инженерной литературе, MDI иногда называется принципом минимума перекрестной энтропии. Минимизация РКЛ <math>m</math> из <math>p</math> в отношении <math>m</math> эквивалентна минимизации перекрестной энтропии <math>p</math> и <math>m</math>, так <math>H(p,m) = H(p) + D_{\mathrm{KL}}(p\parallel m), </math> который подходит, если попытаться выбрать точное приближенное значение до <math>p</math>.

Пример использования

Пусть по выборке <math>x_1, x_2,\dotsc, x_n</math> из распределения некоторой случайной величины требуется восстановить плотность её распределения, заданную в виде параметрического семейства <math>f(x,\theta)</math>, где <math>x \in X \subseteq R</math> — аргумент функции, <math>\theta</math> — неизвестный параметр. Оценка параметра <math>\theta</math> может быть найдена как решение задачи минимизации расстояния Кульбака — Лейблера между плотностью <math>f(x,\theta)</math> и эмпирической плотностью распределения, считающейся «истинной»,

<math>\hat{f}(x)=\frac{1}{n}\sum\limits_{i=1}^n \mathbf\delta(x-x_i)</math>,

где <math>\delta</math> — функция Дирака:

<math>\hat{\theta}=\operatorname{arg} \underset{\theta}{\operatorname{min}} D_{KL}(\hat{f}(x), f(x,\theta))=\operatorname{arg} \underset{\theta}{\operatorname{max}}\int\limits_{X}^{} \hat{f}(x) \ln f(x,\theta)\, dx=\operatorname{arg} \underset{\theta}{\operatorname{max}}\sum\limits_{i=1}^n \mathbf \ln f(x_i,\theta)</math>.

Нетрудно видеть, что решение этой задачи приводит к оценке максимального правдоподобия для параметра <math>\theta</math>. В случае если фактическая плотность распределения случайной величины не принадлежит семейству <math>f(x,\theta)</math>, найденная оценка <math>\hat{\theta}</math> параметра <math>\theta</math> называется квазиправдоподобной и обеспечивает наилучшую аппроксимацию фактического распределения, представленного выборкой, среди распределений с плотностями <math>f(x,\theta)</math> с точки зрения расстояния Кульбака — Лейблера.

Примечания

Шаблон:Примечания