Русская Википедия:Канонический корреляционный анализ
Канонический корреляционный анализ (ККА, Шаблон:Lang-en, CCA) — это способ получения информации из Шаблон:Не переведено 5. Если у нас есть два вектора <math>X=(X_1, \dots, X_n)</math> и <math>Y=(Y_1, \dots, Y_m)</math> случайных величин, и имеются корреляции среди этих переменных, тогда канонический корреляционный анализ найдёт линейную комбинацию X и Y, которая имеет максимум корреляцииШаблон:Sfn. Т. Р. Кнапп заметил, что «практически все общеупотребительные параметрические тесты значимости могут трактоваться как специальный случай канонического корреляционного анализа, который является общей процедурой для исследования связей между двумя наборами переменных»Шаблон:Sfn. Первым метод представил Гарольд Хотеллинг в 1936Шаблон:Sfn.
Определение
Если даны два Шаблон:Не переведено 5 <math>X=(x_1, \dots, x_n)'</math> и <math>Y=(y_1, \dots, y_m)'</math> случайных величин с конечными вторыми моментами, можно определить Шаблон:Не переведено 5 <math>\Sigma _{XY}=\operatorname{cov}(X, Y) </math> как <math> n \times m</math> матрицу, элементы <math>(i, j)</math> которой являются ковариациями <math>\operatorname{cov}(x_i, y_j)</math>. На практике мы оцениваем ковариационную матрицу, основываясь на выборочных данных из <math>X</math> и <math>Y</math> (т.е. из пары матриц данных).
Канонический корреляционный анализ ищет вектора <math>a</math> (<math>a</math><math>\in\mathbb R^n</math> ) и <math>b</math> (<math>b \in\mathbb R^m</math>), такие что случайные величины <math>a'^T X</math> и <math>b'^T Y</math> максимизируют корреляцию <math>\rho=\operatorname{corr}(a'^T X, b'^T Y)</math>. Случайные величины <math>U=a'^T X</math> и <math>V=b'^T Y</math> являются первой парой канонических переменных. Затем ищутся вектора, максимизирующие ту же корреляцию с ограничением, что они не коррелируют с первой парой канонических переменных, это даёт вторую пару канонических переменных. Эта процедура может продолжаться до <math>\min\{m,n\}</math> раз.
- <math display="block">(a',b')=\underset{a,b}\operatorname{argmax} \operatorname{corr}(a^T X, b^T Y)</math>
Вычисление
Вывод
Пусть <math>\Sigma _{XX}=\operatorname{cov}(X, X)</math> и <math>\Sigma _{YY}=\operatorname{cov}(Y, Y)</math>. Максимизируемый параметр
- <math>
\rho=\frac{a^T \Sigma _{XY} b}{\sqrt{a^T \Sigma _{XX} a} \sqrt{b^T \Sigma _{YY} b}}. </math>
На первом шаге осуществляем Шаблон:Не переведено 5 и определяем
- <math>
c=\Sigma _{XX} ^{1/2} a, </math>
- <math>
d=\Sigma _{YY} ^{1/2} b. </math>
Тогда мы имеем
- <math>
\rho=\frac{c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} d}{\sqrt{c^Tc} \sqrt{d^Td}}. </math>
По неравенству Коши — Буняковского мы получим
- <math>
\left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \right) (d) \leqslant \left(c^T \Sigma _{XX} ^{-1/2} \Sigma _{XY} \Sigma _{YY} ^{-1/2} \Sigma _{YY} ^{-1/2} \Sigma _{YX} \Sigma _{XX} ^{-1/2} c \right)^{1/2} \left(d^T d \right)^{1/2}, </math>
- <math>
\rho \leqslant \frac{\left(c^T \Sigma _{XX}^{-1/2} \Sigma _{XY} \Sigma _{YY}^{-1} \Sigma _{YX} \Sigma_{XX}^{-1/2} c \right)^{1/2}}{\left(c^T c \right)^{1/2}}. </math>
Неравенство превращается в равенство, если вектора <math>d</math> и <math>\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c</math> коллинеарны. В дополнение, максимум корреляции достигается, когда <math>c</math> является собственным вектором с максимальным собственным значением для матрицы <math>\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}</math> (см. Отношение Рэлея). Следующая пара находится при использовании следующего по величине собственного значения. Ортогональность гарантируется симметрией корреляционных матриц.
Решение
Решение:
- <math>c</math> является собственным вектором <math>\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1/2}</math>
- <math>d</math> пропорционально <math>\Sigma _{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1/2} c</math>
Соответственно, также
- <math>d</math> является собственным вектором <math>\Sigma_{YY}^{-1/2} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1/2}</math>
- <math>c</math> пропорционально <math>\Sigma_{XX}^{-1/2} \Sigma_{XY} \Sigma_{YY}^{-1/2} d</math>
При обратном изменении координат получаем
- <math>a</math> является собственным вектором <math>\Sigma_{XX}^{-1} \Sigma_{XY} \Sigma_{YY}^{-1} \Sigma_{YX}</math>,
- <math>b</math> пропорционально <math>\Sigma_{YY}^{-1} \Sigma_{YX} a;</math>
- <math>b</math> является собственным вектором <math>\Sigma _{YY}^{-1} \Sigma_{YX} \Sigma_{XX}^{-1} \Sigma_{XY},</math>
- <math>a</math> пропорционально <math>\Sigma_{XX}^{-1} \Sigma_{XY} b</math>.
Канонические переменные определяются равенствами:
- <math>U=c' \Sigma_{XX}^{-1/2} X=a' X</math>
- <math>V=d' \Sigma_{YY}^{-1/2} Y=b' Y</math>
Имплементация
ККА может быть вычислен с помощью сингулярного разложения корреляционной матрицыШаблон:Sfn. Каноническая корреляция доступна как функция в следующих системахШаблон:Sfn.
- MATLAB — функция canoncorr (а также в Octave).
- R — стандартная функция cancor и некоторые другие пакеты. CCP для статистической проверки гипотез в каноническом корреляционном анализе.
- Шаблон:Не переведено 5 — процедура cancorr.
- scikit-learn, Python — пакет Cross decomposition.
- SPSS — макро CanCorr, поставляемый с главным пакетом.
Проверка гипотез
Каждая строка проверяется на значимость с помощью следующего метода. Поскольку корреляции отсортированы, из утверждения, что строка <math>i</math> нулевая, вытекает, что все дальнейшие корреляции также равны нулю. Если мы имеем <math>p</math> независимых наблюдений в выборке и <math>\widehat{\rho}_i</math> является расчётной корреляцией для <math>i=1,\dots, \min\{m,n\}</math>, для <math>i</math>-ой строки критерием значимости будет:
- <math>\chi^2=- \left( p - 1 - \frac{1}{2}(m + n + 1)\right) \ln \prod_{j=i}^{\min\{m,n\}} (1 - \widehat{\rho}_j^2),</math>
которое асимптотически распределено как хи-квадрат с <math>(m - i + 1)(n - i + 1)</math> степенями свободы для больших <math>p</math>Шаблон:Sfn. Поскольку все корреляции от <math> \min\{m,n\}</math> до <math>p</math> равны нулю, произведение членов после этой точки не имеют значения.
Практическое использование
Типичное использование канонической корреляции в экспериментальном контексте заключается в рассмотрении двух наборов переменных и изучении, что общего в этих двух наборах Шаблон:Sfn. Например, в психологических исследованиях можно взять два установившихся многофакторных Шаблон:Не переведено 5, таких как Миннесотский многоаспектный личностный опросник (MMPI-2) и NEO. Рассматривая, как факторы MMPI-2 относятся к факторам NEO, можно обнаружить, какие характеристики оказались общими для двух тестов и насколько переменные являются общими. Например, можно обнаружить, что такие характеристики, как экстраверсия или невротизм, составляют существенную часть общих переменных для двух тестов.
Можно также использовать канонический корреляционный анализ для получения равенства, которое связывает два набора переменных, например, набора измерений производительности и набора объясняющих переменных, или набора выхода и набора входа. На такую модель могут быть наложены ограничивающие условия для обеспечения теоретических или интуитивно очевидных требований. Этот тип модели известен как модель максимальной корреляцииШаблон:Sfn.
Визуализация результатов канонической корреляции осуществляется обычно через столбцовый график коэффициентов двух наборов переменных для пар канонических переменных, показывающий значимую корреляцию. Некоторые авторы предлагают, что лучше визуализировать результаты на гелиографе, который представляет собой круговой график с лучами в виде столбцов, половина из которых представляет один набор переменных, а другая половина — второй наборШаблон:Sfn.
Примеры
Пусть <math>X=x_1</math> с нулевым математическим ожиданием, т.е. <math>\operatorname{E}(X)=0</math>. Если <math>Y=X</math>, т.е. <math>X</math> и <math>Y</math> полностью коррелированны, тогда, к примеру, <math>a=1</math> и <math>b=1</math>, так что первая (только для этого примера) пара канонических переменных равна <math>U=X</math> и <math>V=Y =X</math>. Если <math>Y=-X</math>, т.е. <math>X</math> и <math>Y</math> полностью антикоррелированны, то <math>a=1</math> и <math>b=-1</math>, так что первая (только для этого примера) пара канонических переменных равна <math>U=X</math> и <math>V=-Y =X</math>. Заметим, что в обоих случаях <math>U =V</math>, что показывает, что канонический корреляционный анализ работает с коррелированными переменными точно так же, как и с антикоррелированными.
Связь с главными углами
Предположим, что <math>X=(x_1, \dots, x_n)'</math> и <math>Y=(y_1, \dots, y_m)'</math> имеют нулевые математические ожидания, т.е. <math>\operatorname{E}(X)=\operatorname{E}(Y)=0</math>. Их ковариационные матрицы <math>\Sigma _{XX} =\operatorname{Cov}(X,X)=\operatorname{E}[X X']</math> и <math>\Sigma _{YY} =\operatorname{Cov}(Y,Y)=\operatorname{E}[Y Y']</math> можно рассматривать как матрицы Грама со скалярным произведением для <math>X</math> и <math>Y</math> соответственно. В такой интерпретации случайные величины, элементы <math>x_i</math> вектора <math>X</math> и элементы <math>y_j</math> вектора <math>Y</math>, трактуются как элементы векторного пространства со скалярным произведением, задаваемым ковариацией <math>\operatorname{cov}(x_i, y_j)</math>.
Определение канонических переменных <math>U</math> и <math>V</math> тогда эквивалентно определению корневых векторов для пар подпространств, натянутых на <math>X</math> и <math>Y</math>, с учётом этого скалярного произведения. Каноническая корреляция <math>\operatorname{corr}(U,V)</math> равна косинусу угла между подпространствами.
Отбеливание и вероятностный канонический корреляционный анализ
ККА можно также рассматривать как специальное Шаблон:Не переведено 5[1], где случайные вектора <math>X</math> и <math>Y</math> одновременно преобразуются таким образом, что матрица взаимной корреляции между отбеленными векторами <math>X^{CCA}</math> и <math>Y^{CCA}</math> является диагональнойШаблон:Sfn.
Канонические корреляции тогда интерпретируется как коэффициенты регрессии, связывающие <math>X^{CCA}</math>, и <math>Y^{CCA}</math> и они могут быть отрицательными. Взгляд на ККА как на регрессию даёт способ построения латентной переменной порождающей вероятностной модели для ККА с некоррелируемыми скрытыми переменными, представляющими общую и частную дисперсию.
См. также
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Шаблон:Не переведено 5
- Метод главных компонент
- Линейный дискриминантный анализ
- Сингулярное разложение
- Шаблон:Не переведено 5
Примечания
Литература
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
Ссылки
- Discriminant Correlation Analysis (DCA)
- Шаблон:Статья
- A note on the ordinal canonical-correlation analysis of two sets of ranking scores (Приведена программа на языке FORTRAN)- Journal of Quantitative Economics 7(2), 2009, pp. 173–199
- Representation-Constrained Canonical Correlation Analysis: A Hybridization of Canonical Correlation and Principal Component Analyses (Приведена программа на языке FORTRAN)- Journal of Applied Economic Sciences 4(1), 2009, стр. 115–124
Шаблон:Машинное обучение Шаблон:Rq