Русская Википедия:Анализ независимых компонент

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Анализ независимых компонент (АНК, Шаблон:Lang-en, ICA), называемый также Метод независимых компонент (МНК) — это вычислительный метод в обработке сигналов для разделения Шаблон:Не переведено 5 сигнала на аддитивные подкомпоненты. Этот метод применяется при предположении, что подкомпоненты являются негауссовыми сигналами и что они статистически независимы друг от друга. АНК является специальным случаем слепого разделения сигнала. Типичным примером приложения является задача вечеринки с коктейлем — когда люди на шумной вечеринке выделяют голос собеседника, несмотря на громкую музыку и шум людей в помещении: мозг способен фильтровать звуки и сосредотачиваться на одном источнике (голос визави) в реальном времени.

Введение

Файл:A-Local-Learning-Rule-for-Independent-Component-Analysis-srep28073-s3.ogv
АНК на четырёх случайно смешанных видеоШаблон:Sfn

Анализ независимых компонент пытается разложить множественный сигнал на независимые негауссовые сигналы. Например звук обычно является сигналом, который состоит из сложения в каждый момент одиночных t-сигналов, идущих из нескольких источников. Вопрос заключается в том, возможно ли разделить эти источники, выделяя их из общего сигнала. Если допущение статистической независимости верно, слепое разделение независимых компонент смешанного сигнала даст очень хорошие результаты. Метод также применяется для анализа сигналов, которые могут быть и не смешанными.

Простым приложением АНК является «задача о шумной вечеринке», когда собеседники слышат друг друга, выделяя голос собеседника из общего сигнала, состоящего из шума одновременно говорящих людей в помещении и шумной улицы за окном. Обычно задача упрощается предположением, что задержка по времени или эхо отсутствуют. Заметим, что отфильтрованный и задержанный сигнал является копией зависимой компоненты, и тогда допущение статистической независимости не нарушено.

Важно также учитывать, что если представлено <math display="inline">N</math> источников, нужно по меньшей мере <math display="inline">N</math> наблюдений (например микрофонов, если наблюдаемый сигнал — аудио), чтобы обнаружить исходные сигналы. В этом случае матрица квадратна (<math display="inline">J = D</math> , где <math display="inline">D</math> входная размерность данных, а <math display="inline">J</math> — размерность модели). Иначе получаем и исследуем недоопределённый (<math display="inline">J > D</math>) или переопределённый (<math display="inline">J < D</math>) случай.

Метод АНК — разделение смешанных сигналов, базируется на двух допущениях и трёх эффектах источников смешанного сигнала, что даёт очень хорошие результаты. Двумя допущениями являются:

  1. Источники сигналов независимы друг от друга.
  2. Значения каждого источника сигнала имеют негауссово распределение.

Тремя эффектами источника смешанного сигнала являются:

  1. Независимость: как в и допущении 1, источники сигналов независимы, однако их смесь не является независимой от источников, потому что смесь сигналов имеет одни и те же источники.
  2. Нормальность: согласно центральной предельной теореме, распределение суммы независимых случайных переменных с конечной дисперсией стремится к гауссовому распределению. Попросту говоря, сумма двух независимых случайных переменных обычно имеет распределение более близкое к гауссовому, чем любое из двух исходных случайных переменных. Здесь мы рассматриваем каждый сигнал как случайную переменную.
  3. Сложность: временна́я сложность любой смеси сигналов больше, чем сложность одного сигнала, более простого по его составляющим.

Эти принципы составляют базовые основы АНК. Если сигналы, которые нам удалось извлечь из смеси, независимы, подобно исходным сигналам, и имеют негауссовые гистограммы или имеют малую сложность, подобную сигналу источников, они должны быть сигналами источниковШаблон:SfnШаблон:Sfn.

Определение независимости компонент

АНК находит независимые компоненты (которые называются факторами, скрытыми переменными или источниками) путём максимизации статистической независимости оцениваемых компонент. Можно выбрать один из многих путей для определения заменителя независимости, и этот выбор определит форму алгоритма АНК. Два наиболее широких определения независимости АНК:

  1. Минимизация взаимной информации
  2. Максимизация негауссовости

Семейство алгоритмов АНК с минимизацией взаимной информации (Шаблон:Lang-en, MMI) использует такие меры, как расхождение Кульбака — Лейблера и максимальная энтропия. Семейство алгоритмов АНК с максимизацией негауссовости использует коэффициент эксцесса и негэнтропию.

Типичным алгоритмам АНК свойственно использование следующих методов:

Декорреляция и снижение размерности могут быть получены методом главных компонент или сингулярным разложением. Декорреляция обеспечивает методу такие условия, когда все размерности трактуются одинаково и установлены априори до прогона алгоритма. Хорошо известные алгоритмы для АНК: Шаблон:Не переведено 5, Шаблон:Не переведено 5, Шаблон:Не переведено 5, Шаблон:Не переведено 5 и многие другие. В общем случае АНК не сможет определить действительное число источников сигналов, единственно правильный порядок или масштаб (включая знак) сигналов.

АНК важен для слепого разделения сигнала и имеет много практических приложений. Метод тесно связан с поиском (или даже является частным случаем поиска) Шаблон:Не переведено 5 данных, то есть нового векторного представления каждого вектора данных таким образом, чтобы он был однозначно закодирован результирующим кодовым вектором (кодирование без потерь), при этом компоненты кода статистически независимы.

Математическое определение

Линейный анализ независимых компонент может быть разделён на случай без шумов и случай с шумами, где АНК без шумов является частым случаем АНК с шумом. Нелинейный АНК следует считать отдельным случаем.

Общее определение

Данные представлены наблюдаемым случайным вектором <math>\boldsymbol{x}=(x_1,\ldots,x_m)^T</math>, а скрытые компоненты случайным вектором <math>\boldsymbol{s}=(s_1,\ldots,s_n)^T</math>. Задачей построения алгоритма является преобразование наблюдаемых данных <math>\boldsymbol{x}</math> с помощью статического преобразования <math>\boldsymbol{W}</math> в наблюдаемый вектор максимально независимых компонент <math>\boldsymbol{s} = \boldsymbol{W} \boldsymbol{x}</math>, измеренных некоторой функцией независимости <math>F(s_1,\ldots,s_n)</math>.

Генерирующая модель

Линейная АНК без шума

Компоненты <math>x_i</math> наблюдаемого случайного вектора <math>\boldsymbol{x}=(x_1,\ldots,x_m)^T</math> генерируются как сумма независимых компонент <math>s_k</math>, <math>k=1,\ldots,n</math>:

<math>x_i = a_{i,1} s_1 + \cdots + a_{i,k} s_k + \cdots + a_{i,n} s_n</math>

взвешенных весами <math>a_{i,k}</math>.

Та же генерирующая модель может быть записана в векторном виде как <math>\boldsymbol{x}=\sum_{k=1}^{n} \boldsymbol{s}_k \boldsymbol{a}_k</math>, где наблюдаемый случайный вектор <math>x</math> представлен базисными векторами <math>\boldsymbol{a}_k=(\boldsymbol{a}_{1,k},\ldots,\boldsymbol{a}_{m,k})^T</math>. Базисные вектора <math>\boldsymbol{a}_k</math> образуют столбцы матрицы смешивания <math>\boldsymbol{A}=(\boldsymbol{a}_1,\ldots,\boldsymbol{a}_n)</math> и генерирующая формула может быть записана как <math>\boldsymbol{x}=\boldsymbol{A} \boldsymbol{s}</math>, где <math>\boldsymbol{s}=(s_1,\ldots,s_n)^T</math>.

Если дана модель и реализации <math>x_1,\ldots,x_N</math> случайного вектора <math>\boldsymbol{x}</math>, задачей является оценка как матрицы смешивания <math>\boldsymbol{A}</math>, так и источников <math>\boldsymbol{s}</math>. Это делается путём адаптивного вычисления векторов <math>\boldsymbol{w}</math> и установления функции цены, которая либо максимизирует негауссовость вычисленного <math>s_k = \boldsymbol{w}^T \boldsymbol{x}</math> или минимизирует взаимную информацию. В некоторых случаях априорное знание распределения вероятности источников может быть использовано в функции цены.

Исходные источники <math>\boldsymbol{s}</math> могут быть извлечены путём умножения наблюдаемых сигналов <math>\boldsymbol{x}</math> на обратную к матрице смешивания <math>\boldsymbol{W}=\boldsymbol{A}^{-1}</math>, которая известна также как не смешивающая матрица. Здесь предполагается, что матрица смешивания квадратная (<math>n=m</math>). Если число базисных векторов больше размерности наблюдаемых векторов <math>n>m</math>, задача является переопределённой, но остаётся разрешимой с помощью псевдообратной матрицы.

Линейный АНК с шумом

С добавочным предположением о нулевом среднем и не коррелирующим гауссовым шумом <math>n\sim N(0,\operatorname{diag}(\Sigma))</math>, модель АНК принимает форму <math>\boldsymbol{x}=\boldsymbol{A} \boldsymbol{s}+n</math>.

Нелинейный АНК

Смесь источников не обязательно должна быть линейной. Используя нелинейную функцию смешивания <math>f(\cdot|\theta)</math> с параметрами <math>\theta</math> нелинейной моделью АНК будет <math>x=f(s|\theta)+n</math>.

Различимость

Независимые компоненты различимы с точностью до перестановки и масштабирования источников. Эта различимость требует, чтобы:

  • Максимум один из источников <math>s_k</math> был гауссовым,
  • Число наблюдаемых смесей <math>m</math> должно быть не меньше числа компонент <math>n</math>: <math>m \geqslant n</math>. Это эквивалентно высказыванию, что матрица смеси <math>\boldsymbol{A}</math> должна иметь полный ранг, чтобы существовала обратная ей смесь.

Бинарный анализ независимых компонент

Специальным вариантом АНК является Бинарный АНК, в котором как источники сигнала, так и мониторы имеют двоичную форму, а наблюдения от мониторов являются дизъюнктивной смесью бинарных независимых источников. Задача, как было показано, имеет приложения во многих областях, включая медицинскую диагностику, многокластерное назначение, Шаблон:Не переведено 5 и управление ресурсами интернета.

Пусть <math>{x_1, x_2, \ldots, x_m}</math> является набором бинарных переменных из <math>m</math> мониторов и <math>{y_1, y_2, \ldots, y_n}</math> является набором бинарных переменных из <math>n</math> источников. Связи источник-монитор представлены (неизвестной) смешанной матрицей <math display="inline">\boldsymbol{G}</math>, где <math>g_{ij} = 1</math> указывает, что сигнал от i-го источника может наблюдаться j-м монитором. Система работает следующим образом: в любое время, если источник <math>i</math> активен (<math>y_i=1</math>) и он связан с монитором <math>j</math> (<math>g_{ij}=1</math>), то монитор <math>j</math> будет наблюдать некоторую активность (<math>x_j=1</math>). Формально мы имеем:

<math>

x_i = \bigvee_{j=1}^n (g_{ij}\wedge y_j), i = 1, 2, \ldots, m, </math>

где <math>\wedge</math> является булевым И (Шаблон:Lang-en), а <math>\vee</math> является булевым ИЛИ (Шаблон:Lang-en). Заметим, что шум не моделируется явно, а трактуется как независимые источники.

Описанная выше проблема может быть эвристически решенаШаблон:Sfn (при предположении, что переменные непрерывны) путём применения метода Шаблон:Не переведено 5 на бинарных наблюдаемых данных для получения смешанной матрицы <math display="inline">\boldsymbol{G}</math> (получены вещественные значения), затем применяем технику округления на <math display="inline">\boldsymbol{G}</math> для получения бинарных значений. Этот подход, как было показано, даёт крайне неточный результат.

Другим методом является использование динамического программирования — матрица рекурсивно разбивает наблюдения <math display="inline">\boldsymbol{X}</math> на подматрицы и алгоритм вывода прогоняется на этих подматрицах. Ключевое наблюдение, которое ведёт к этому алгоритму: подматрица <math display="inline">\boldsymbol{X}^0</math> матрицы <math display="inline">\boldsymbol{X}</math>, где <math display="inline">x_{ij} = 0 \forall j</math> соответствует несмещённой матрице наблюдений скрытых компонент, которые не имеют связи с <math>i</math>-м монитором. Результаты экспериментовШаблон:Sfn показывают, что этот подход точен при умеренном уровне шумов.

Аппарат обобщённой бинарной АНКШаблон:Sfn вводит более широкое описание проблемы, которое не требует какого-либо знания о порождающей модели. Другими словами, этот метод пытается разложить источник на независимые компоненты (на столько, насколько возможно создать алгоритм без потери какой-либо информации) без предварительных допущений применения способа, при помощи которого он был получен. Хотя эта задача достаточно сложна, она может быть точно решена с помощью метода ветвей и границ или точно ограничена сверху умножением матрицы на вектор.

Методы слепого разделения сигнала

Поиск наилучшей проекции

Смеси сигналов имеют тенденцию к получению гауссовой плотности вероятности, а сигналы источников имеют тенденцию к негауссовой плотности вероятности. Каждый источник сигнала может быть выделен из набора смесей сигналов путём вычисления скалярного произведения вектора весов и той смеси сигналов, на которой это скалярное произведение даёт ортогональную проекцию смеси сигналов. Следующая задача заключается в нахождении вектора весов. Один из методов — поиск наилучшей проекцииШаблон:SfnШаблон:Sfn.

Поиск наилучшей проекции ищет одну проекцию за шаг, при условии, что выделенный сигнал будет настолько негауссовым, насколько это возможно. Это контрастирует с АНК, который обычно выделяет M сигналов одновременно из M смесей сигналов, что требует оценки <math>M \times M</math> несмешивающей матрицы. Одним из практических преимуществ поиска наилучшей проекции над АНК является то, что может выделяться менее M сигналов, если требуется, где каждый источник сигнала выделяется из смеси M сигналов используя M-элементный вектор весов.

Мы можем использовать коэффициент эксцесса для извлечения сигнала с несколькими источниками путём нахождения правильных векторов весов с использованием поиска наилучшей проекции.

Коэффициент эксцесса плотности вероятности сигнала, для конечной выборки вычисляется как

<math>

K=\frac{\operatorname{E}[(\mathbf{y}-\mathbf{\overline{y}})^4]}{(\operatorname{E}[(\mathbf{y}-\mathbf{\overline{y}})^2])^2}-3 </math>

где <math>\mathbf{\overline{y}}</math> является выборочным средним <math>\mathbf{y}</math> выделенных сигналов. Константа 3 обеспечивает, чтобы гауссовы сигналы имели нулевой коэффициент эксцесса, супергауссовы сигналы имели положительный коэффициент эксцесса, а субгауссовы сигналы имели отрицательный коэффициент эксцесса. Знаменатель равен дисперсии <math>\mathbf{y}</math> и он обеспечивает, чтобы измеренный коэффициент эксцесса получал дисперсию сигнала. Целью поиска наилучшей проекции является максимизация коэффициента эксцесса и сделать выделенный сигнал настолько ненормальным, насколько возможно.

Используя коэффициент эксцесса как меру ненормальности мы можем теперь проверить насколько коэффициент эксцесса сигнала <math>\mathbf{y} = \mathbf{w}^T \mathbf{x}</math>, извлечённого из набора M смесей <math>\mathbf{x}=(x_1,x_2,\ldots,x_M)^T</math>, изменяется по мере того, как вектор весов <math>\mathbf{w}</math> вращается вокруг начала координат. Если задано, что каждый источник сигнала <math>\mathbf{s}</math> является супергауссовым, мы можем ожидать

  1. коэффициент эксцесса извлечённого сигнала <math>\mathbf{y}</math> максимален в точности тогда, когда <math>\mathbf{y} = \mathbf{s}</math>.
  2. коэффициент эксцесса извлечённого сигнала <math>\mathbf{y}</math> максимален, когда <math>\mathbf{w}</math> ортогонален проекциям осей <math>S_1</math> или <math>S_2</math>, поскольку мы знаем, что вектор оптимального веса должен быть ортогонален преобразованным осям <math>S_1</math> и <math>S_2</math>.

Для смеси сигналов от разных источников мы можем использовать коэффициент эксцесса ортогонализации Грама ― Шмидта (ОГШ) для извлечения сигналов. Если дана смесь M сигналов в M-мерном пространстве, ОГШ проектирует эти точки данных в (M-1)-мерное пространство с помощью вектора весов. Мы можем гарантировать независимость выделенных сигналов с помощью ОГШ.

С целью поиска правильного значения <math>\mathbf{w}</math> мы можем использовать метод градиентного спуска. Прежде всего, мы избавляемся от корреляции и преобразуем <math>\mathbf{x}</math> в новую смесь <math>\mathbf{z}</math>, которая имеет единичную дисперсию и <math>\mathbf{z}=(z_1,z_2,\ldots,z_M)^T</math>. Этот процесс может быть выполнен путём применения сингулярного разложения к <math>\mathbf{x}</math>,

<math>\mathbf{x} = \mathbf{U} \mathbf{D} \mathbf{V}^T</math>

Масштабируем каждый вектор <math>U_i=U_i/\operatorname{E}(U_i^2)</math> и положим <math>\mathbf{z} = \mathbf{U}</math>. Сигнал, выделенный взвешенным вектором <math>\mathbf{w}</math>, равен <math>\mathbf{y} = \mathbf{w}^T \mathbf{z}</math>. Если вектор весов w имеет единичную длину, то есть <math>\operatorname{E}[(\mathbf{w}^T \mathbf{z})^2]=1</math>, тогда коэффициент эксцесса можно переписать как:

<math>

K=\frac{\operatorname{E}[\mathbf{y}^4]}{(\operatorname{E}[\mathbf{y}^2])^2}-3=\operatorname{E}[(\mathbf{w}^T \mathbf{z})^4]-3. </math>

Процесс обновления для <math>\mathbf{w}</math>:

<math>\mathbf{w}_{new}=\mathbf{w}_{old}-\eta\operatorname{E}[\mathbf{z}(\mathbf{w}_{old}^T \mathbf{z})^3 ].</math>

где <math>\eta</math> является малой константой для гарантирования, что <math>\mathbf{w}</math> сходится к оптимальному решению. После каждого обновления мы нормализуем <math>\mathbf{w}_{new}=\frac{\mathbf{w}_{new}}{|\mathbf{w}_{new}|}</math> и множество <math>\mathbf{w}_{old}=\mathbf{w}_{new}</math> и повторяем процесс обновления пока он не сойдётся. Мы можем использовать также другой алгоритм для обновления вектора весов <math>\mathbf{w}</math>.

Другим подходом является использование негэнтропииШаблон:Sfn вместо коэффициента эксцесса. Негэнтропия является устойчивым методом по отношению коэффициента эксцесса, поскольку коэффициент эксцесса очень чувствителен к выбросам. Метод негэнтропии основывается на важном свойстве распределения Гаусса — нормальная случайная величина имеет наибольшую энтропию среди всех непрерывных случайных переменных с одинаковой дисперсией. Это также является причиной, почему мы хотим найти наиболее негауссовые переменные. Простое доказательство можно найти в статье дифференциальной энтропии.

<math>J(x) = S(y) - S(x)\,</math>

y являются гауссовой случайной переменной некоторой ковариантной матрицы,

<math>S(x) = - \int p_x(u) \log p_x(u) du</math>

Аппроксимация для негэнтропии равна

<math>J(x)=\frac{1}{12}(E(x^3))^2 + \frac{1}{48}(kurt(x))^2</math>

Доказательство можно найти на странице 131 книги «Анализ независимых компонент», которую написали Аапо Хювяринен, Юха Кархунен и Эркки ОйяШаблон:Sfn. Эта аппроксимация также страдает теми же проблемами, что и коэффициент эксцесса (чувствительность к выбросам). Разрабатывались и другие подходыШаблон:Sfn

<math>J(y) = k_1(E(G_1(y)))^2 + k_2(E(G_2(y)) - E(G_2(v))^2</math>

Выбор <math>G_1</math> и <math>G_2</math>

<math>G_1 = \frac{1}{a_1}\log(\cosh(a_1u))</math> и <math>G_2 = -\exp(-\frac{u^2}{2})</math>

Основанный на infomax

АНК, по существу, является многомерной параллельной версией поиска наилучшей проекции. В то время как поиск наилучшей проекции выделяет серию сигналов по одному из смеси M сигналов, АНК выделяет M сигналов параллельно. Это приводит к большей устойчивости АНК по сравнению с поиском наилучшей проекцииШаблон:Sfn.

Метод поиска наилучшей проекции, чтобы обеспечить независимость выделяемых сигналов, использует ортогонализацию Грама ― Шмидта, в то время как АНК использует метод Шаблон:Не переведено 5 и оценку максимального правдоподобия для обеспечения независимости выделяемого сигнала. Ненормальность выделяемого сигнала достигается с помощью соответствующей модели.

Процесс АНК, основанный на Шаблон:Не переведено 5, коротко: если дана смесь сигналов <math>\mathbf{x}</math> и набор одинаковых независимых функций распределения <math>g</math>, мы ищем несмешивающую матрицу <math>\mathbf{W}</math>, которая максимизирует совместную энтропию сигналов <math>\mathbf{Y}=g(\mathbf{y})</math>, где <math>\mathbf{y}=\mathbf{Wx}</math> являются сигналами, отобранными по <math>\mathbf{W}</math>. Если дана оптимальная <math>\mathbf{W}</math>, сигналы <math>\mathbf{Y}</math> имеют максимальную энтропию и, потому, независимы, что гарантирует, что выделенные сигналы <math>\mathbf{y}=g^{-1}(\mathbf{Y})</math> также независимы. Функция <math>g</math> обратима и является моделью сигнала. Заметим, что если плотность вероятности модели источника сигнала <math>p_s</math> соответствует плотности вероятности выделенного сигнала <math>p_{\mathbf{y}}</math>, то максимизация совместной энтропии <math>Y</math> также максимизирует количество взаимной информации между <math>\mathbf{x}</math> и <math>\mathbf{Y}</math>. По этой причине, использование энтропии для выделения независимых сигналов известно как Шаблон:Не переведено 5.

Рассмотрим энтропию векторной переменной <math>\mathbf{Y}=g(\mathbf{y})</math>, где <math>\mathbf{y}=\mathbf{Wx}</math> является набором сигналов, выделенных несмешивающей матрицей <math>\mathbf{W}</math>. Для конечного набора значений, выбранных из распределения с плотностью вероятности <math>p_{\mathbf{y}}</math>, энтропия <math>\mathbf{Y}</math> может быть оценена как:

<math>

H(\mathbf{Y})=-\frac{1}{N}\sum_{t=1}^N \ln p_{\mathbf{Y}}(\mathbf{Y}^t) </math> Совместная плотность вероятности <math>p_{\mathbf{Y}}</math>, как можно показать, связана с совместной плотностью вероятности <math>p_{\mathbf{y}}</math> извлечённых сигналов с помощью многомерной формы:

<math>

p_{\mathbf{Y}}(Y)=\frac{p_{\mathbf{y}}(\mathbf{y})}{|\frac{\partial\mathbf{Y}}{\partial \mathbf{y}}|} </math>

где <math>\mathbf{J}=\frac{\partial\mathbf{Y}}{\partial \mathbf{y}}</math> является матрицей Якоби. Мы имеем <math>|\mathbf{J}|=g'(\mathbf{y})</math>, и <math>g'</math> является плотностью вероятности, принятых для источников сигналов <math>g'=p_s</math>, поэтому,

<math>

p_{\mathbf{Y}}(Y)=\frac{p_{\mathbf{y}}(\mathbf{y})}{|\frac{\partial\mathbf{Y}}{\partial \mathbf{y}}|}=\frac{p_\mathbf{y}(\mathbf{y})}{p_\mathbf{s}(\mathbf{y})} </math> поэтому,

<math>

H(\mathbf{Y})=-\frac{1}{N}\sum_{t=1}^N \ln\frac{p_\mathbf{y}(\mathbf{y})}{p_\mathbf{s}(\mathbf{y})} </math>

Мы знаем, что когда <math>p_{\mathbf{y}}=p_s</math>, <math>p_{\mathbf{Y}}</math> является однородным распределением, а <math>H({\mathbf{Y}})</math> максимизирована. Поскольку

<math>

p_{\mathbf{y}}(\mathbf{y})=\frac{p_\mathbf{x}(\mathbf{x})}{|\frac{\partial\mathbf{y}}{\partial\mathbf{x}}|}=\frac{p_\mathbf{x}(\mathbf{x})}{|\mathbf{W}|} </math> где <math>|\mathbf{W}|</math> является абсолютным значением определителя несмешивающей матрицы <math>\mathbf{W}</math>. Поэтому,

<math>

H(\mathbf{Y})=-\frac{1}{N}\sum_{t=1}^N \ln\frac{p_\mathbf{x}(\mathbf{x}^t)}{|\mathbf{W}|p_\mathbf{s}(\mathbf{y}^t)} </math> так что,

<math>

H(\mathbf{Y})=\frac{1}{N}\sum_{t=1}^N \ln p_\mathbf{s}(\mathbf{y}^t)+\ln|\mathbf{W}|+H(\mathbf{x}) </math> поскольку <math>H(\mathbf{x})=-\frac{1}{N}\sum_{t=1}^N\ln p_\mathbf{x}(\mathbf{x}^t)</math>, и максимизация <math>\mathbf{W}</math> не влияет на <math>H_{\mathbf{x}}</math>, мы можем максимизировать функцию

<math>

h(\mathbf{Y})=\frac{1}{N}\sum_{t=1}^N \ln p_\mathbf{s}(\mathbf{y}^t)+\ln|\mathbf{W}| </math> чтобы получить независимость извлечённого сигнала.

Если имеется M маргинальных плотностей вероятности модели, совместные плотности вероятности <math>p_{\mathbf{s}}</math> независимы и используют супергауссову модель плотности вероятности для источников сигналов <math>p_{\mathbf{s}}=(1-\tanh(\mathbf{s})^2)</math>, то мы получаем

<math>

h(\mathbf{Y})=\frac{1}{N}\sum_{i=1}^M\sum_{t=1}^N \ln (1-\tanh(\mathbf{w_i^T x^t})^2)+\ln|\mathbf{W}| </math>

В сумме, если задана наблюдаемая смесь сигнала <math>\mathbf{x}</math>, соответствующий набор извлечённых сигналов <math>\mathbf{y}</math> и модель источника сигнала <math>p_{\mathbf{s}}=g'</math>, мы можем найти оптимальную несмешивающую матрицу <math>\mathbf{W}</math> и сделать извлечённые сигналы независимыми и негауссовыми. Подобно ситуации с поиском наилучшей проекции, мы можем использовать метод градиентного спуска для поиска оптимального решения несмешивающей матрицы.

На основе оценки максимального правдоподобия

Оценка максимального правдоподобия (Шаблон:Lang-en, MLE) является стандартным статистическим средством для нахождения значений параметров (например, несмешивающей матрицы <math>\mathbf{W}</math>), которые обеспечивают лучшее соответствие некоторых данных (например, извлечённых сигналов <math>y</math>) для данной модели (например, совместной плотности вероятности (ПВ) <math>p_s</math> источников сигналов)Шаблон:Sfn.

Модель максимального правдоподобия включает спецификацию плотности вероятности, которая в этом случае является плотностью вероятности <math>p_s</math> сигналов неизвестного источника <math>s</math>. При использовании максимального правдоподобия целью является нахождение несмешивающей матрицы, которая даёт извлечённые сигналы <math>y = \mathbf{W}x</math> с совместной плотностью вероятности, которые максимально подобны совместной плотностью вероятности <math>p_s</math> сигналов неизвестного источника <math>s</math>.

Оценка максимального правдоподобия основывается на предположении, что если модель плотности вероятности <math>p_s</math> и модель параметров <math>\mathbf{A}</math> правильны, то должна быть получена высокая вероятность для <math>x</math>, что эти данные действительно наблюдаемы. Обратно, если <math>\mathbf{A}</math> далёк от верных значений параметров, то следует ожидать низкую вероятность наблюдения данных.

При оценке максимального правдоподобия мы называем вероятность наблюдаемых данных для данного набора значений параметров модели (например, плотности вероятности <math>p_s</math> и матрицы <math>\mathbf{A}</math>) правдоподобностью значений параметров модели, заданной наблюдаемыми данными.

Мы определяем функцию правдоподобия <math>\mathbf{L(W)}</math> матрицы <math>\mathbf{W}</math>:

<math>\mathbf{ L(W)} = p_s (\mathbf{W}x)|\det \mathbf{W}|. </math>

Это равно плотности вероятности в <math>x</math>, поскольку <math>s = \mathbf{W}x</math>.

Тогда, если мы хотим найти <math>\mathbf{W}</math>, то наиболее вероятно иметь сгенерированные наблюдаемые смеси <math>x</math> из неизвестных источников сигналов <math>s</math> с плотностью вероятности <math>p_s</math>, то нам нужно лишь найти <math>\mathbf{W}</math>, которая максимизирует правдоподобность <math>\mathbf{L(W)}</math>. Несмешивающая матрица, которая максимизирует равенство, известна как оценка максимального правдоподобия оптимальной несмешивающей матрицей.

Распространённой практикой является использование логарифма правдоподобия, поскольку его проще всего вычислить. Так как логарифм является монотонной функцией, матрица <math>\mathbf{W}</math>, которая максимизирует функция <math>\mathbf{L(W)}</math>, также максимизирует его логарифм <math>\ln \mathbf{L(W)}</math>. Это позволяет взять логарифм в равенстве выше, что даёт логарифм функции правдоподобия

<math>\ln \mathbf{L(W)} =\sum_{i}\sum_{t} \ln p_s(w^T_ix_t) + N\ln|\det \mathbf{W}|</math>

Если мы подставим широко используемую модель плотности вероятности с высоким коэффициентом эксцесса для источников сигналов <math>p_s = (1-\tanh(s)^2)</math>, мы получим

<math>\ln \mathbf{L(W)} ={1 \over N}\sum_{i}^{M} \sum_{t}^{N}\ln(1-\tanh(w^T_i x_t )^2) + \ln |\det \mathbf{W}|</math>

Матрица <math>\mathbf{W}</math>, максимизирующая эту функцию, является оценкой максимального правдоподобия.

История и предпосылки

Раннюю общую основу для анализа независимых компонент предложили Дженни Эро и Бернард Анс в 1984 годуШаблон:Sfn, затем к ним присоединился Христиан Джуттен с 1985 годаШаблон:SfnШаблон:SfnШаблон:Sfn. Наиболее ясно этот метод изложил Пьер Комон в 1994 годуШаблон:Sfn. В 1995 году Тони Белл и Терри Седжновски предложили быстрый и эффективный алгоритм АНК, основанный на принципе Шаблон:Не переведено 5, который ввёл Ральф Линскер в 1987 г.

Многие алгоритмы, реализующие АНК, доступны и описаны в литературе, относящейся к данной области. Алгоритм FastICA, который разработали Аапо Хювяринен и Эркки Ойя, широко используется, включая производственные приложения. В нём применен коэффициент эксцесса в качестве функции цены. Другие примеры скорее связаны со слепым разделением сигнала, в основе которого лежит более общий подход. Например, можно опустить допущение независимости и разделить попарно коррелирующие сигналы, а следовательно, избежать статистически «зависимых» сигналов. Сепп Хохрайтер и Юрген Шмидхубер показали, как получить нелинейный АНК или осуществить разделение источников, если они являются побочным продуктом регуляризации (1999)Шаблон:Sfn. Их метод не требует бесспорного и строгого знания о числе независимых источников.

Приложения

АНК может быть расширен на анализ нефизических сигналов. Например, АНК был применён для обнаружения тем обсуждения в архивах новостей.

Некоторые из приложений АНК перечислены нижеШаблон:Sfn:

Файл:Independent component analysis in EEGLAB.png
Анализ независимых компонент в Шаблон:Не переведено 5

См. также

Шаблон:Colbegin

Шаблон:Colend

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Шаблон:Rq Шаблон:Машинное обучение