Русская Википедия:Признаковое описание
Признаковое описание объекта (Шаблон:Lang-en) — это вектор, который составлен из значений, соответствующих некоторому набору признаков для данного объекта. Значения признаков могут быть различного, не обязательно числового, типа. Является одним из самых распространённых в машинном обучении способов ввода данных.
Формальное определение
Обозначим через X множество объектов, ситуаций, прецедентов некоторой предметной области. Например, в задачах машинного обучения, встречающихся в медицине, прецедентами могут являться пациенты, в сфере кредитования при проведении кредитного скоринга — заёмщики, в задаче фильтрации спама — отдельные сообщения.
Признак (Шаблон:Lang-en) — результат измерения некоторой характеристики объекта, то есть отображение:
- <math>f\colon X \to D_f</math>,
где <math>D_f</math> — множество допустимых значений признака.
Значениями признаков могут быть тексты, графы, оцифрованные изображения, числовые последовательности, записи базы данных и т. п. В зависимости от множества <math>D_f</math> признаки делятся на следующие типы:
- бинарный признак: <math>D_f=\{0,1\}</math>;
- номинальный признак: <math>D_f</math> — конечное множество;
- порядковый признак: <math>D_f</math> — конечное упорядоченное множество;
- количественный признак: <math>D_f</math> — множество действительных чисел.
Часто встречаются прикладные задачи с разнотипными признаками, для решения которых подходят далеко не все методы.
Если заданы признаки <math>f_1,\dots,f_n</math>, то вектор <math>{\mathbf x} = (f_1(x),\dots,f_n(x))</math> называется признаковым описанием объекта <math>x\in X</math>.
В машинном обучении признаковые описания допустимо отождествлять с самими объектами, то есть: <math>X = D_{f_1} \times D_{f_2}\times\dots\times D_{f_n}</math>. При этом множество <math>X</math> называют признаковым пространством.
Матрицей объектов-признаков (матрица информации, матрица исходных данных) называется совокупность признаковых описаний объектов обучающей выборки <math>X^l = (x_1, x_2, \dots, x_l)</math> длины <math>l</math>, записанная в виде матрицы размера <math>l\times n</math> (<math>l</math> строк, <math>n</math> столбцов). Столбцы этой матрицы соответствуют признакам <math>f_1,\dots,f_n</math>, а каждая строка является признаковым описаниям одного обучающего объекта. Такой вид представления является принятым в задачах классификации и регрессионного анализа, и большое число методов обучения подразумевает такое представление данных.
В приложениях
Встречающиеся на практике задачи могут не содержать удобных для математической обработки данных. Например, в задаче фильтрации спама объекты — сообщения — представлены текстами произвольной длины, могут содержать вложения различных форматов, и т. п. Для приведения данных к стандартному виду применяется процедура — извлечение признаков (Шаблон:Lang-en) из данных или генерация признаков (Шаблон:Lang-en). Таким образом, в качестве признака можно брать и любое отображение из множества <math>X</math> в множество значений, удобное для обработки. Ничто не мешает в качестве такого отображения взять некоторый алгоритм классификации (или регрессии), что позволяет получать сложные композиции алгоритмов.
Литература
Ссылки
- Признаковое описание, machinelearning.ru