Русская Википедия:Снижение размерности

В статистике, машинном обучении и теории информации снижение размерности — это преобразование данных, состоящее в уменьшении числа переменных путём получения главных переменныхШаблон:Sfn. Преобразование может быть разделено на отбор признаков и выделение признаков Шаблон:Sfn.

Отбор признаков

Шаблон:Основная статья

Метод отбора признаков пытается найти подмножество исходных переменных (которые называются признаками или атрибутами). Есть три стратегии — стратегия фильтра (например, Шаблон:Не переведено 5), стратегия обёртывания (например, поиск согласно точности) и стратегия вложения (выбираются признаки для добавления или удаления по мере построения модели, основанной на ошибках прогнозирования). См. также задачи комбинаторной оптимизации.

В некоторых случаях анализ данных, такой как регрессия или классификация, может быть осуществлён в редуцированном пространстве более точно, чем в исходном пространствеШаблон:Sfn.

Проекция признаков

Проекция признаков преобразует данные из пространства высокой размерности к пространству малой размерности. Преобразование данных может быть линейным, как в методе главных компонент (МГК), но существует большое число техник Шаблон:Не переведено 5 Шаблон:Sfn Шаблон:Sfn. Для многомерных данных может быть использовано тензорное представление для снижения размерности через Шаблон:Не переведено 5 Шаблон:Sfn.

Метод главных компонент (МГК)

Шаблон:Основная статья

Основная линейная техника для снижения размерности, метод главных компонент, осуществляет линейное отображение данных в пространство меньшей размерности таким образом, что дисперсия данных в малоразмерном представлении максимизируется. На практике строится матрица ковариации (а иногда корреляции) данных и вычисляются собственные вектора этой матрицы. Собственные вектора, соответствующие наибольшим собственным значениям (главные компоненты) теперь можно использовать для восстановления большей части дисперсии исходных данных. Более того, первые несколько собственных векторов часто можно интерпретировать в терминах крупномасштабного физического поведения системы. Исходное пространство (с размерностью, равной числу точек) редуцируется (с потерей данных, но с надеждой, что остаётся наиболее важная дисперсия) до пространства, натянутого на несколько собственных векторов.

Неотрицательное матричное разложение (НМР)

Шаблон:Основная статья

Неотрицательное матричное разложение раскладывает неотрицательную матрицу на произведение двух неотрицательных матриц, которые имеют многообещающие средства в областях, где существуют только неотрицательные сигналыШаблон:Sfn Шаблон:Sfn, таких как астрономияШаблон:Sfn Шаблон:Sfn. Неотрицательное матричное разложение хорошо известно ввиду правила мультипликативных корректировок (Шаблон:Lang-en) Ли и СынаШаблон:Sfn, которое непрерывно разрабатывалось: включение неоределённости (Шаблон:Lang-en)Шаблон:Sfn, учёт отсутствующих данных (Шаблон:Lang-en) и параллельные вычисления^[1], последовательное построение (Шаблон:Lang-en)^[1], которое ведёт к стабильности и линейности НМРШаблон:Sfn, а также другие корректировки.

Со стабильным компонентным базисом во время построения и линейным процессом моделирования последовательное неотрицательное матричное разложение (Шаблон:Lang-en)^[1] способно сохранить поток околозвёздных структур прямого наблюдения (то есть наблюдаемых непосредственно, а не по косвенным признакам) в астрономииШаблон:Sfn, как один из методов обнаружения экзопланет, особенно для околозвёздных дисков прямого наблюдения. По сравнению с МГК неотрицательное матричное разложение не удаляет среднее матриц, удаление которых приводит к нефизическим неотрицательным потокам, потому НМР способно сохранить больше информации, чем метод главных компонент, что продемонстрировал Рен с соавторамиШаблон:Sfn.

Ядерный метод главных компонент (ЯМГК)

Шаблон:Основная статья Метод главных компонент может применяться другим способом при использовании ядерного трюка. Получающаяся техника способна построить нелинейные отображения, которые максимизируют дисперсию данных. Эта техника называется Шаблон:Не переведено 5.

Основанный на графах ядерный МГК

Другие многообещающие нелинейные техники — это техники Шаблон:Не переведено 5, такие как Шаблон:Не переведено 5, Шаблон:Не переведено 5 (ЛЛВ), локально-линейное вложение с использованием гессиана (Шаблон:Lang-en), метод карт собственных значений лапласиана (Шаблон:Lang-en) и Шаблон:Не переведено 5 (Шаблон:Lang-en, LTSA). Эти техники строят низкоразмерное представление данных, используя функцию цены, которая сохраняет локальные свойства данных и которую можно рассматривать как определение основанного на графах ядра для ядерного МГК.

Недавно были предложены техники, которые вместо определения фиксированного ядра пытаются изучить ядро с помощью полуопределённого программирования. Наиболее значительным примером такой техники является развертка по максимуму невязки (РМН). Центральная идея РМН состоит в точности в сохранении всех попарных расстояний между ближайшими соседями (в пространстве со скалярным произведением), максимизируя при этом расстояния между точками, не являющимися ближайшими соседями.

Альтернативный подход к сохранению соседства заключается в минимизации функции цены, которая измеряет расстояния во входном и выходном пространствах. Важные примеры таких техник: классическое многомерное шкалирование, которое идентично МГК; Шаблон:Не переведено 5, которая использует геодезические расстояния в пространстве данных; Шаблон:Не переведено 5, который использует диффузионные расстояния в пространстве данных; стохастическое вложение соседей с t-распределением (Шаблон:Lang-en, t-SNE), который минимизирует разницу между парами точек, UMAP (Uniform Approximation and Projection), который минимизирует дивергенцию Кульбака-Лейблера между множествами в высоко- и низкоразмерном пространствах^[2], и нелинейный анализ компонент (Шаблон:Lang-en, CCA).

Другой подход к нелинейному снижению размерности — через использование автокодировщиков, специального вида нейронных сетей прямого распространения (Шаблон:Lang-en) с бутылочным (в виде бутылочного горлышка) скрытым слоемШаблон:Sfn. Обучение глубоких кодировщиков обычно осуществляется с использованием жадного послойного предобучения (например, используя каскад ограниченных машин Больцмана), за которым следует этап тонкой настройки, основанный на методе обратного распространения ошибки.

Линейный дискриминантный анализ (ЛДА)

Шаблон:Основная статья Линейный дискриминантный анализ (ЛДА) является обобщением линейного дискриминанта Фишера, метода, применяемого в статистике, распознавании образов и машинном обучении для поиска линейной комбинации признаков, которые описывают или разделяют два и более класса объектов или событий.

Обобщённый дискриминантный анализ (ОДА)

Обобщённый дискриминантный анализ имеет дело с нелинейным дискриминантным анализом с помощью оператора ядра функции (Шаблон:Lang-en). Лежащая в основе теория близка к методу опорных векторов (МОВ), поскольку метод ОДА даёт отображение входных векторов в пространство признаков высокой размерности Шаблон:Sfn Шаблон:Sfn. Аналогично ЛДА, целью ОДА является поиск проекции признаков в пространство меньшей размерности с максимизацией отношения межклассовой инвариантности (Шаблон:Lang-en) к внутриклассовой инвариантности (Шаблон:Lang-en).

Автокодировщик

Шаблон:Основная статья Автокодировщик может быть использован для изучения функций нелинейного снижения размерности и кодирования вместе с обратной функцией из кодированного к исходному представлению.

Снижение размерности

Для наборов данных высокой размерности (то есть с числом размерностей больше 10) снижение размерности обычно осуществляется перед применением метода k-ближайших соседей (Шаблон:Lang-en, k-NN) с целью избежать эффект проклятия размерности Шаблон:Sfn.

Выделение признаков и снижение размерности может быть скомбинировано в один шаг с помощью метода главных компонент (МГК), линейного дискриминантного анализа(ЛДА), канонического корреляционного анализа (ККА) или неотрицательного разложения матрицы (НМР) как предварительный шаг с последующей группировкой с помощью K-NN на векторе признаков в пространстве редуцированной размерности. В машинном обучении этот процесс называется также малоразмерным вложением Шаблон:Sfn.

Для любых наборов данных высокой размерности (например, когда осуществляется поиск подобия в видеопотоке, ДНК данных или временном ряде высокой размерности) использование быстрого приближённого K-NN поиска с помощью методов «locality sensitive hashing», Шаблон:Не переведено 5 Шаблон:Sfn, «выжимок (sketches)»Шаблон:Sfn (например, тензорный скетч) или других высокоразмерных техник поиска похожести из арсенала сверхбольших баз данных Шаблон:Уточнить может оказаться единственно возможным вариантом.

Преимущества снижения размерности

Оно уменьшает требуемое время и память.
Удаление мультиколлинеарности улучшает скорость модели машинного обучения.
Проще представить данные визуально, если свести к очень низким размерностям, таким как 2D или 3D.

Приложения

Техника снижения размерности, которая иногда используется в нейронауках,— это Шаблон:Не переведено 5. Техника находит представления низкой размерности набора данных, сохраняющие как можно больше информации об исходных данных.

См. также

Шаблон:Колонки

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Шаблон:Rq Шаблон:Машинное обучение Шаблон:Рекомендательные системы

↑ ^1,0 ^1,1 ^1,2 Шаблон:Cite arXiv
↑ Шаблон:Cite web

[zhu16-1] 1,0 ^1,1 ^1,2 Шаблон:Cite arXiv

[2] Шаблон:Cite web

[1]

[2]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Снижение размерности

Содержание

Отбор признаков

Проекция признаков

Метод главных компонент (МГК)

Неотрицательное матричное разложение (НМР)

Ядерный метод главных компонент (ЯМГК)

Основанный на графах ядерный МГК

Линейный дискриминантный анализ (ЛДА)

Обобщённый дискриминантный анализ (ОДА)

Автокодировщик

Снижение размерности

Преимущества снижения размерности

Приложения

См. также

Примечания

Литература

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты