Русская Википедия:Перекрёстная энтропия

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

В теории информации перекрёстная энтропия между двумя распределениями вероятностей измеряет среднее число бит, необходимых для опознания события из набора возможностей, если используемая схема кодирования базируется на заданном распределении вероятностей <math>q</math>, вместо «истинного» распределения <math>p</math>.

Перекрестная энтропия для двух распределений <math>p</math> и <math>q</math> над одним и тем же вероятностным пространством определяется следующим образом:

<math>\mathrm{H}(p, q) \stackrel{\mathrm{df}}{\;=\;} \mathrm{E}_p[-\log q] = \mathrm{H}(p) + D_{\mathrm{KL}}(p \| q)</math>,

где <math>H(p)</math> — энтропия <math>p</math>, и <math>D_{\mathrm{KL}}(p || q)</math> — расстояние Кульбака—Лейблера от <math>p</math> до <math>q</math> (также известная как относительная энтропия).

Для дискретного <math>p</math> и <math>q</math> это означает

<math>\mathrm{H}(p, q) = -\sum_x p(x)\, \log q(x).</math>

Ситуация для непрерывного распределения аналогична:

<math>\mathrm{H}(p, q) = -\int\limits_X p(x)\, \log q(x)\, dx.</math>

Нужно учесть, что, несмотря на формальную аналогию функционалов для непрерывного и дискретного случаев, они обладают разными свойствами и имеют разный смысл. Непрерывный случай имеет ту же специфику, что и понятие дифференциальной энтропии.

NB: Запись <math>\mathrm{H}(p,q)</math> иногда используется как для перекрёстной энтропии, так и для совместной энтропии <math>p</math> и <math>q</math>.

Минимизация перекрёстной энтропии

Минимизация перекрёстной энтропии часто используется в оптимизации и для оценки вероятностей редких событий.


См. также

Шаблон:Нет ссылок