Русская Википедия:Предварительная обработка данных

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Предварительная обработка данных является важным шагом в процессе интеллектуального анализа данных. Фраза «мусор на входе — мусор на выходе» применима, в частности, и для проектов интеллектуального анализа данных и машинного обучения. Здесь имеется в виду то, что даже самый изощренный анализ не принесет пользы, если за основу взяты сомнительные данные[1].

Необходимость

Методы сбора данных часто плохо контролируются. Это приводит к появлению недопустимых значений (к примеру: доход, равный −100), комбинаций данных, которые невозможны (к примеру: «мужской пол при наличии беременности»), отсутствию значений и прочее. В результате анализа данных, которые не защищены от такого рода проблем, можно прийти к неверным выводам. Качество данных является первостепенной задачей при проведении анализа Шаблон:Sfn. Часто, предварительная обработка данных становится важной фазой проекта обучения машины. Это особенно касается процессов вычислительной биологииШаблон:Sfn.

Во время тренировки машины, при большом количестве лишней информации, «зашумлённых» и недостоверных данных, извлечение знаний становится затруднительным. Этап подготовки и фильтрации данных может занять много времени. Предварительная подготовка данных включает в себя:

и прочие манипуляции с данными.

Результатом предварительной обработки данных является конечный Шаблон:Не переведено 5.

Методы

Ниже приведено краткое описание методов, которые применяются на этапе предварительной обработки данных.

  • Очистка данных используется для обнаружения, исправления или удаления ошибочных записей в наборе данныхШаблон:Sfn;
  • Нормализация данных используется для стандартизации диапазона значений независимых переменных или признаков данных (например, сведение к интервалам [0, 1] или [-1, +1]);
  • Шаблон:Не переведено 5 используется для приведения данных в формат, который ожидает аудитория;
  • Выделение признаков используется для преобразования входных данных в набор признаков, которые они хорошо представляют;
  • Шаблон:Не переведено 5 используется для преобразования числовых данных в исправленный, упорядоченный и упрощённый вид. Это помогает уменьшить количество и/или размерность данных.

См. также

Примечания

Шаблон:Примечания

Литература

Шаблон:Refbegin

Шаблон:Refend

Ссылки

Шаблон:Нет сносок в данной статье

Внешние ссылки

Шаблон:Выбор языка Шаблон:Данные