Русская Википедия:Энтропия Реньи
В теории информации энтропия Реньи — обобщение энтропии Шеннона — является семейством функционалов, используемых в качестве меры количественного разнообразия, неопределённости или случайности некоторой системы. Названа в честь Альфреда Реньи.
Если некоторая система имеет дискретное множество доступных состояний <math>X=\{x_1,...,x_n\}</math>, которому соответствует распределение вероятностей <math>p_i</math> для <math>i=1, ..., n</math> (то есть <math>p_i</math> — вероятности пребывания системы в состояниях <math>x_i</math>), тогда энтропия Реньи с параметром <math>\alpha</math> (при <math>\alpha \geq 0</math> и <math>\alpha \neq 1</math>) системы определяется как
- <math>H_\alpha(X) =\frac{1}{1-\alpha}\log\sum_{i=1}^n p_i^\alpha = \frac{1}{1-\alpha} \log \Big\langle p^{\alpha-1}\Big\rangle</math>,
где угловыми скобками обозначено математическое ожидание по распределению <math>p_i</math> (<math>p</math> — вероятность пребывания системы в некотором состоянии как случайная величина), логарифм берётся по основанию 2 (для счёта в битах) либо по другому удобному основанию (оно должно быть больше 1). Основание логарифма определяет единицу измерения энтропии. Так, в математической статистике обычно используется натуральный логарифм.
Если все вероятности <math>p_i=1/n</math>, тогда при любом <math>\alpha</math> энтропия Реньи <math>H_\alpha(X)=\log n</math>. В остальных случаях энтропия Реньи убывает как функция <math>\alpha</math>. Притом более высокие значения <math>\alpha</math> (уходящие в бесконечность) дают энтропии Реньи значения, которые в большей степени определены лишь самыми высокими вероятностями событий (то есть вклад в энтропию маловероятных состояний уменьшается). Промежуточный случай <math>\alpha =1</math> в пределе даёт энтропию Шеннона, которая обладает особыми свойствами. Более низкие значения <math>\alpha</math> (стремящиеся к нулю), дают значение энтропии Реньи, которое взвешивает возможные события более равномерно, менее зависимо от их вероятностей. А при <math>\alpha =0</math> получаем максимально возможную <math>\alpha</math>-энтропию, равную <math>\log n</math> независимо от распределения (лишь бы <math>p_i \neq 0</math>).
Смысл параметра <math>\alpha</math> можно описать, говоря неформальным языком, как восприимчивость функционала к отклонению состояния системы от равновесного: чем больше <math>\alpha</math>, тем быстрее уменьшается энтропия при отклонении системы от равновесного состояния. Смысл ограничения <math>\alpha \geq 0</math> заключается в том, чтобы обеспечивалось увеличение энтропии при приближении системы к равновесному (более вероятному) состоянию. Это требование является естественным для понятия энтропия. Следует заметить, что для энтропии Цаллиса, которая эквивалентна энтропии Реньи с точностью до не зависящего от <math>X</math> монотонного преобразования, соответствующее ограничение часто опускают, при этом для отрицательных значений параметра вместо максимизации энтропии используют её минимизацию. Между тем существует корректное с точки зрения поведения функционала обобщение энтропий Реньи и Цаллиса на случай произвольного действительного значения параметра.
Энтропия Реньи играет важную роль в экологии и статистике, определяя так называемые индексы разнообразия. Энтропия Реньи также важна в квантовой информации, она может быть использована в качестве меры сложности. В цепочке Гейзенберга <math> XY</math> энтропия Реньи была рассчитана в терминах модулярных функций, зависящих от <math>\alpha</math>. Они также приводят к спектру показателей фрактальной размерности.
Hα для некоторых конкретных значений α
Некоторые частные случаи
- При <math>\alpha=0</math> энтропия Реньи не зависит от вероятностей состояний (вырожденный случай) и равна логарифму числа состояний (логарифму мощности множества <math>X</math>):
- <math>H_0 (X) = \log n = \log |X|</math>.
Данную энтропию иногда называют энтропией Хартли. Она используется, например, в формулировке принципа Больцмана.
- В пределе при <math>\alpha \to 1</math>, можно показать, используя правило Лопиталя, что <math>H_\alpha</math> сходится к энтропии Шеннона. Таким образом, семейство энтропий Реньи может быть доопределено функционалом
- <math>H_1(X) \stackrel{\mathrm{df}}{\;=\;} \lim_{\alpha \to 1} H_\alpha(X) =H(X)= - \sum_{i=1}^n p_i \log p_i </math>.
- Квадратичная энтропия, иногда называемая энтропией столкновений, — это энтропия Реньи с параметром <math>\alpha = 2</math>:
- <math>H_2(X) = - \log \sum_{i=1}^n p_i^2 = - \log \operatorname{Prob} \{x=y\}</math>,
где <math> x </math> и <math> y </math> — независимые случайные величины, одинаково распределённые на множестве <math>X</math> с вероятностями <math>p_i</math> (<math>i=1,...,n</math>). Квадратичная энтропия используется в физике, обработке сигналов, экономике.
- Существует предел
- <math>H_\infty(X) \stackrel{\mathrm{df}}{\;=\;} \lim_{\alpha \to \infty} H_\alpha(X) =- \log \sup_i p_i </math>,
который называется min-энтропией, потому что это наименьшее значение <math>H_\alpha</math>. Данная энтропия также является вырожденным случаем, поскольку её значение определяется только наиболее вероятным состоянием.
Неравенства для различных значений α
Два последних случая связаны соотношением <math> H_\infty < H_2 < 2 H_\infty </math>. С другой стороны, энтропия Шеннона <math>H_1(X)</math> может быть сколь угодно высокой для распределения X с фиксированной min-энтропией.
- <math> H_2 < 2 H_\infty </math> потому что <math> \log \sum\limits_{i = 1}^n {p_i^2 } \ge \log \sup_i p_i^2 = 2\log \sup_i p_i </math>.
- <math> H_\infty < H_2 </math>, потому что <math> \log \sum\limits_{i = 1}^n {p_i^2 } < \log \sup_i p_i \left( {\sum\limits_{i = 1}^n {p_i } } \right) = \log \sup_i p_i </math>.
- <math> H_1 \ge H_2</math> в соответствии с неравенством Йенсена <math>
\sum\limits_{i = 1}^n {p_i \log p_i } \le \log \sum\limits_{i = 1}^n {p_i^2 } </math>.
Расхождения (дивергенции) Реньи
Кроме семейства энтропий, Реньи также определил спектр мер расхождений (дивергенций), обобщающих расхождение Кульбака—Лейблера. Формулы данного раздела записаны в общем виде — через логарифм по произвольному основанию. Поэтому нужно понимать, что каждая приведённая формула представляет собой семейство эквивалентных функционалов, определённых с точностью до постоянного (положительного) множителя.
Расхождение Реньи с параметром <math>\alpha</math>, где <math>\alpha>0</math> и <math>\alpha \neq 1</math>, распределения <math>Q</math> относительно распределения <math>P</math> (или «расстояние от <math>P</math> до <math>Q</math>») определяется как
- <math>D_\alpha (P \| Q) = \frac{1}{\alpha-1}\log \sum_{i=1}^n p_i^\alpha q_i^{1-\alpha} = \frac{1}{\alpha-1} \log \Big\langle (p/q)^{\alpha-1} :: P\Big\rangle </math>
или (формально, без учёта нормировки вероятностей)
- <math>D_\alpha (P \| Q) =- H_\alpha \Bigg(\frac{p}{q^{1-1/\alpha}} \Bigg) </math>,
- <math>H_\alpha (P) =- \left. D_\alpha(P \| Q) \right|_{q=1} </math>.
Как расхождение Кульбака—Лейблера, расхождение Реньи является неотрицательным для <math>\alpha>0</math>.
Некоторые частные случаи
- При <math>\alpha=0</math> дивергенция Реньи не определена, однако семейство дивергенций можно доопределить элементом
- <math>D_0(P \| Q) \stackrel{\mathrm{df}}{\;=\;} \lim_{\alpha \to 0} D_\alpha(P \| Q) = - \log \sum_{i=1}^n q_i \sgn p_i</math> : минус логарифм от суммы вероятностей <math>q</math>, таких что соответствующие <math>p>0</math>.
- <math>D_{1/2}(P \| Q) = -2 \log \sum_{i=1}^n \sqrt{p_i q_i} </math> : расстояние Бхаттачария (минус логарифм от Шаблон:Iw, несущественный множитель <math>2</math> игнорируем). Данное расхождение с точностью до монотонного преобразования эквивалентно расстоянию Хеллингера и сферическому расстоянию Бхаттачария—Рао, однако в отличие от них не удовлетворяет неравенству треугольника, а потому не является метрикой в пространстве распределений.
- <math>D_1(P \| Q) \stackrel{\mathrm{df}}{\;=\;} \lim_{\alpha \to 1} D_\alpha(P \| Q) = D_{KL}(P \| Q) = \sum_{i=1}^n p_i \log \frac{p_i}{q_i} = \Big\langle\log \frac p q ::P\Big\rangle </math> : расхождение Кульбака—Лейблера (равно математическому ожиданию по распределению <math>P</math> логарифма отношения вероятностей <math>p/q</math>).
- <math>D_2(P \| Q)= \log \sum_{i=1}^n \frac{p^2_i}{q_i} = \log \Big\langle \frac{p}{q} ::P\Big\rangle</math> : логарифм от математического ожидания по распределению <math>P</math> отношения вероятностей <math>p/q</math>. Данное расхождение с точностью до монотонного преобразования эквивалентно расстоянию хи-квадрат Пирсона <math>D_{\chi^2}(P\|Q)=\sum_{i=1}^n \frac{(p_i-q_i)^2}{q_i}</math>.
- <math>D_\infty(P \| Q) \stackrel{\mathrm{df}}{\;=\;} \lim_{\alpha \to \infty} D_\alpha(P \| Q) = \log \sup_i \frac{p_i}{q_i} </math> : логарифм от максимального отношения вероятностей <math>p/q</math>.
Финансовая (игровая) интерпретация
Рассмотрим игру (лотерею) по угадыванию некой случайной величины. Официальные выигрышные ставки известны и опубликованы в виде распределения вероятностей <math>m</math>. Между тем истинное распределение вероятностей может не совпадать с <math>m</math>. Знание истинного распределения позволяет игроку заработать. Ожидаемый рост капитала экспоненциальный. Считая верным распределение <math>b</math>, игрок может подсчитать (свое) математическое ожидание экспоненциальной скорости роста капитала (за раунд игры) [Soklakov2020]:
- ОжидаемыйРост <math>= \frac{1}{R}\, D_1(b\|m) + \frac{R-1}{R}\, D_{1/R}(b\|m) \,,</math>
где <math>R</math> обозначает относительную меру неприятия риска по Эрроу-Пратту.
Обозначив <math>p</math> истинное распределение (не обязательно совпадающее с мнением игрока <math>b</math>) реально полученный рост можно подсчитать в пределе многократной игры [Soklakov2020]:
- ФактическийРост <math> = \frac{1}{R}\,\Big( D_1(p\|m) - D_1(p\|b) \Big) + \frac{R-1}{R}\, D_{1/R}(b\|m) \,.</math>
Почему случай α = 1 особенный
Значение <math>\alpha = 1</math>, которое соответствует энтропии Шеннона и расхождению Кульбака—Лейблера, является особенным, потому что только в этом случае можно выделить переменные A и X из совместного распределения вероятностей, такие что справедливо
- <math>H(A,X) = H(A) + \mathbb{E}_{p(a)} \{ H(X|a) \}</math>
для энтропии, и
- <math>D_\mathrm{KL}(p(x|a)p(a)||m(x,a)) = \mathbb{E}_{p(a)}\{D_\mathrm{KL}(p(x|a)||m(x|a))\} + D_\mathrm{KL}(p(a)||m(a))</math> —
для дивергенции.
Последнее означает, что если мы будем искать распределение <math>p(x,a)</math>, которое сводит к минимуму расхождения некоторых основополагающих мер <math>m(x,a)</math>, и получим новую информацию, которая влияет только на распределение <math>a</math>, то распределение <math>p(x|a)</math> не будет зависеть от изменений <math>m(x|a)</math>.
В общем случае расхождения Реньи с произвольными значениями <math>\alpha</math> удовлетворяют условиям неотрицательности, непрерывности и инвариантности относительно преобразования координат случайных величин. Важным свойством любых энтропии и дивергенции Реньи является аддитивность: когда <math>A</math> и <math>X</math> независимы, из <math>p(A,X) = p(A)p(X)</math> следует
- <math>H_\alpha(A,X) = H_\alpha(A) + H_\alpha(X)</math>
и
- <math>D_\alpha(P(A)P(X)\|Q(A)Q(X)) = D_\alpha(P(A)\|Q(A)) + D_\alpha(P(X)\|Q(X))</math>.
Наиболее сильные свойства случая <math>\alpha = 1</math>, которые предполагают определение условной информации и взаимной информации из теории связи, могут быть очень важны в других приложениях или совершенно неважны, в зависимости от требований этих приложений.
Перекрёстная энтропия Реньи
Перекрёстная энтропия <math>H_\alpha(P,Q)</math> от двух распределений с вероятностями <math>p_i</math> и <math>q_i</math> (<math>i=1,...,n</math>) в общем случае может определяться по-разному (в зависимости от применения), но должна удовлетворять условию <math>H_\alpha(P,P)=H_\alpha(P)</math>. Один из вариантов определения (аналогичным свойством обладает перекрёстная энтропия Шеннона):
- <math>H_\alpha(P,Q)=H_\alpha(P)+D_\alpha(P,Q)</math>.
Другое определение, предложенное А. Реньи, может быть получено из следующих соображений. Определим эффективное количество состояний системы как среднее геометрическое взвешенное от величин <math>1/q_i</math> с весами <math>p_i</math>:
- <math>\overline{n}=\prod_{i=1}^n (1/q_i)^{p_i}</math>.
Отсюда следует выражение для перекрёстной энтропии Шеннона
- <math>H(P,Q)=\log \overline{n}=-\sum_{i=1}^n p_i \log q_i</math>.
Рассуждая аналогичным образом, определим эффективное количество состояний системы как среднее степенное взвешенное от величин <math>1/q_i</math> с весами <math>p_i</math> и параметром <math>1-\alpha</math>:
- <math>\overline{n}=\left(\sum_{i=1}^n p_i (1/q_i)^{1-\alpha}\right)^{\frac 1 {1-\alpha}} = \left(\sum_{i=1}^n p_i q_i^{\alpha-1}\right)^{\frac 1 {1-\alpha}}</math>.
Таким образом, перекрёстная энтропия Реньи имеет вид
- <math>H_\alpha(P,Q)=\log \overline{n}=\frac 1{1-\alpha}\log \sum_{i=1}^n p_i q_i^{\alpha-1}= \frac{1}{1-\alpha} \log \Big\langle q^{\alpha-1}::P\Big\rangle</math>.
- Нетрудно видеть, что в случае, если распределения вероятностей <math>p</math> и <math>q</math> совпадают, перекрёстная энтропия Реньи совпадает с энтропией Реньи.
- Также при <math>\alpha \to 1</math> перекрёстная энтропия Реньи сходится к перекрёстной энтропии Шеннона.
- Свойство <math>H(P,Q)=H(P)+D_{KL}(P \| Q) \geq H(P)</math>, справедливое для перекрёстной энтропии Шеннона, в общем случае не имеет места. Перекрёстная энтропия Реньи может быть как больше, так и меньше энтропии Реньи.
Непрерывный случай
Для формального обобщения энтропии Шеннона на случай непрерывного распределения служит понятие дифференциальная энтропия. Совершенно аналогично определяется дифференциальная энтропия Реньи:
- <math>H_\alpha(f)=\frac{1}{1-\alpha}\log \int\limits_{X}^{} {f^\alpha(x)}dx</math>.
Расхождение (дивергенция) Реньи в непрерывном случае также является обобщением расхождения Кульбака—Лейблера и имеет вид
- <math>D_\alpha(g,f)=\frac{1}{\alpha-1}\log \int\limits_{X}^{} {g^\alpha(x) f^{1-\alpha}(x)}dx</math>.
Определение перекрёстной энтропии, предложенное А. Реньи, в непрерывном случае имеет вид
- <math>H_\alpha(g,f)=\frac{1}{1-\alpha}\log \int\limits_{X}^{} {g(x) f^{\alpha-1}(x)}dx</math>.
В приведённых формулах <math>f(x)</math> и <math>g(x)</math> — некоторые функции плотности распределения вероятностей, определённые на интервале <math>X \subseteq R</math>, и полагается <math>\alpha>0</math>, <math>\alpha \ne 1</math>. При <math>\alpha=1</math> рассмотренные функционалы непрерывно доопределяются соответственно энтропией Шеннона <math>H(f)</math>, дивергенцией Кульбака—Лейблера <math>D(g,f)</math> и перекрёстной энтропией Шеннона <math>H(g,f)</math>.
Обобщение на случай произвольного параметра
Для произвольного <math>\alpha \subseteq R</math>, <math>\alpha \ne 0</math>, <math>\alpha \ne 1</math>, энтропия и дивергенция Реньи определяются следующим образом:
- <math>H_\alpha(f)=\frac{1}{\alpha(1-\alpha)}\log \int\limits_{X}^{} {f^\alpha(x)}dx</math>,
- <math>D_\alpha(g,f)=\frac{1}{\alpha(\alpha-1)}\log \int\limits_{X}^{} {g^\alpha(x) f^{1-\alpha}(x)}dx</math>.
При <math>\alpha=1</math> рассмотренные функционалы непрерывно доопределяются соответственно энтропией Шеннона <math>H(f)</math> и дивергенцией Кульбака—Лейблера <math>D(g,f)</math>. При <math>\alpha=0</math> дивергенция непрерывно доопределяется обратной дивергенцией Кульбака—Лейблера <math>D(f,g)</math>, а энтропия с точностью до несущественного слагаемого и несущественного сомножителя эквивалентна энтропии Берга <math>\int\limits_{X}^{} {\log f(x)}dx</math>. Действительно, если функционал <math>H_\alpha(f)</math> уменьшить на постоянную величину <math>\frac{1}{\alpha(1-\alpha)}\log \int\limits_{X}^{} {}dx</math> и раскрыть неопределённость при <math>\alpha \to 0</math> по правилу Лопиталя, в пределе получим выражение для энтропии Берга, делённое на <math>\int\limits_{X}^{} {}dx</math>. Однако следует заметить, что энтропия Берга, как и вообще энтропия Реньи при <math>\alpha \le 0</math>, не существует для распределений, заданных на неограниченном промежутке <math>X</math>. Для дискретных аналогов приведённых здесь формул подобного ограничения нет.
Литература
- Шаблон:Cite conference
- Шаблон:Статья
- Шаблон:Статья
- O.A. Rosso EEG analysis using wavelet-based information tools. Journal of Neuroscience Methods 153 (2006) 163–182
- Rényi entropy as a measure of entanglement in quantum spin chain: F. Franchini, A. R. Its, V. E. Korepin, Journal of Physics A: Math. Theor. 41 (2008) 025302 [1]
- F. Liese and I. Vajda. Convex Statistical Distances // Teubner-Texte zur Mathematik. – Leipzig, 1987, band 95.