Русская Википедия:Метод k-медиан

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Метод <math>k</math>-медиан[1][2] — применяемая в статистике и машинном обучении вариация метода <math>k</math>-средних для задач кластеризации, где для определения центроида кластера вместо среднего вычисляется медиана. Такой подход соответствует минимизации ошибки по всем кластерам в метрике с 1-нормой, вместо метрики с 2-нормой, используемой в стандартном методе <math>k</math>-средних.

Задача определения <math>k</math>-медиан состоит в поиске таких <math>k</math> центров, что сформированные по ним кластеры будут наиболее «компактными». Формально, при заданных точках данных <math>x_i</math>, <math>k</math> центров <math>c_j</math> должны быть выбраны так, чтобы минимизировать сумму расстояний от каждой <math>x_i</math> до ближайшего <math>c_j</math>.

Метод иногда работает лучше, чем метод <math>k</math>-средних, где минимизируется сумма квадратов расстояний. Критерий суммы расстояний широко используется для транспортных задач[3].

Ещё альтернатива — метод <math>k</math>-медоидов, в котором ищут оптимальный медоид, а не медиану кластера (медоид является одной из точек данных, в то время как медианы таковыми быть не обязаны).

Ссылки

Шаблон:Примечания

Шаблон:Среднее Шаблон:Машинное обучение

  1. A. K. Jain and R. C. Dubes, Algorithms for Clustering Data: Prentice-Hall, 1981.
  2. P. S. Bradley, O. L. Mangasarian, and W. N. Street, "Clustering via Concave Minimization, " in Advances in Neural Information Processing Systems, vol. 9, M. C. Mozer, M. I. Jordan, and T. Petsche, Eds. Cambridge, MA: MIT Press, 1997, pp. 368—374.
  3. Шаблон:Cite web