Русская Википедия:Выявление аномалий
Выявление аномалий (обнаружение выбросовШаблон:Sfn) — опознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данныхШаблон:Sfn. Обычно аномальные данные характеризуют некоторый вид проблемы, такой как Шаблон:Не переведено 5, структурный дефект, медицинские проблемы или ошибки в тексте. Аномалии также упоминаются как выбросы, необычности, шум, отклонения или исключенияШаблон:Sfn.
Общее обсуждение
Выявление аномалий в контексте обнаружения злоумышленного использования и вторжения в сеть, интересующие нас объекты часто не являются редкими, но проявляют неожиданную вспышку активности. Это не соответствует обычному статистическому определению выбросов как редких объектов и многие методы обнаружения выбросов (в частности, методы без учителя) терпят неудачу на таких данных, пока данные не будут сгруппированы подходящим образом. Зато алгоритмы кластерного анализа способны заметить микрокластеры, образованные таким поведениемШаблон:Sfn.
Существует широкий набор категорий техник выявления аномалийШаблон:Sfn. Техника выявления аномалий без учителя обнаруживает аномалии в непомеченных наборах тестовых данных при предположении, что большая часть набора данных нормальна, путём поиска представителей, которые меньше подходят к остальному набору данных. Техника выявления аномалий с учителем требует предоставления данных, помеченных как «нормальные» и «ненормальные», и использует обучение классификатора (ключевое отличие от многих других задач классификации заключается в неотъемлемой несбалансированной природе выявления выбросов). Техника выявления аномалий с частичным учителем строит модель, представляющую нормальное поведение из заданного набора нормального тренировочного набора, а затем проверяет правдоподобие полученной модели.
Приложения
Выявление аномалий применимо к широкому кругу областей, таких как система обнаружения вторжений, обнаружение мошенничества, обнаружение неисправностей, мониторинга здоровья, обнаружение событий в сетях датчиков и обнаружение нарушений в экологической сфере. Часто выявление аномалий используется для предварительной обработки данных с целью удаления аномалий. При обучении с учителем удаление аномальных данных из набора часто приводит к существенному статистическому увеличению точностиШаблон:SfnШаблон:Sfn.
Популярные техники
В литературе было предложено несколько техник выявления аномалийШаблон:Sfn. Вот некоторые популярные техники:
- Техники, основанные на плотности (k-ближайшие соседиШаблон:SfnШаблон:SfnШаблон:Sfn, локальный уровень выбросаШаблон:Sfn, изолирующие лесаШаблон:Sfn и многие другие варианты этой концепцииШаблон:Sfn).
- Обнаружение выбросов на основе подпространствШаблон:Sfn и на основе корреляцииШаблон:Sfn для данных высокой размерностиШаблон:Sfn.
- Метод опорных векторов для одного классаШаблон:Sfn.
- Репликатор нейронных сетейШаблон:Sfn.
- Байесовские сетиШаблон:Sfn.
- Скрытые марковские модели (СММ) Шаблон:Sfn.
- Выявление выбросов на основе кластерного анализаШаблон:SfnШаблон:Sfn.
- Отклонения от ассоциативных правил и часто встречающихся наборов.
- Выявление выбросов на основе нечёткой логики.
- Техника создания ансамблей, использующая Шаблон:Не переведено 5Шаблон:SfnШаблон:Sfn, усреднение оценкиШаблон:SfnШаблон:Sfn и различение источников несхожестиШаблон:SfnШаблон:Sfn.
Эффективность различных методов зависит от данных и параметров и имеют слабые систематические преимущества один перед другим, если сравнивать по многим наборам данных и параметровШаблон:Sfn[1].
Приложение к защите данных
Выявление аномалий предложила для систем обнаружения вторжений Дороти Деннинг в 1986 годуШаблон:Sfn. Выявление аномалий для систем обнаружения вторжений обычно выполняется с заданием порога и статистики, но может быть сделано с помощью мягких вычислений и индуктивного обученияШаблон:Sfn. Типы статистики, предлагавшиеся в 1999 году, включали профили пользователей, рабочих станций, сетей, удалённых узлов, групп пользователей и программ, основанных на частотах, средних и дисперсияхШаблон:Sfn. Эквивалентом выявления аномалий в обнаружении вторжений является Шаблон:Не переведено 5.
Программное обеспечение
- Шаблон:Не переведено 5 является комплектом инструментов с открытым кодом на языке Java для анализа данных, который содержит некоторые алгоритмы выявления аномалий, а также ускорители на основе индексов для них.
Примечания
Литература
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Книга
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
- Шаблон:Статья
Ссылки
- Архив данных для сравнения алгоритмов выявления аномалий Мюнхенского университета; Зеркало в Университете Сан-Паулу.
- ODDS — ODDS: Большая коллекция публично доступных наборов данных для выявления выбросов с реальными ситуациями в различных областях.
Шаблон:Rq Шаблон:Машинное обучение
- ↑ См. наборы данных ниже