Русская Википедия:MNIST (база данных)

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

База данных MNIST (сокращение от «Modified National Institute of Standards and Technology») — объёмная база данных образцов рукописного написания цифр. База данных является стандартом, предложенным Национальным институтом стандартов и технологий США с целью калибрации и сопоставления методов распознавания изображений с помощью машинного обучения в первую очередь на основе нейронных сетей[1][2]. Данные состоят из заранее подготовленных примеров изображений, на основе которых проводится обучение и тестирование систем[3][4]. База данных была создана после переработки оригинального набора чёрно-белых образцов размером 20x20 пикселей NIST. Создатели базы данных NIST, в свою очередь, использовали набор образцов из Бюро переписи населения США, к которому были добавлены ещё тестовые образцы, написанные студентами американских университетов[5]. Образцы из набора NIST были нормализированы, прошли сглаживание и приведены к серому полутоновому изображению размером 28x28 пикселей[5].

База данных MNIST содержит 60000 изображений для обучения и 10000 изображений для тестирования[6]. Половина образцов для обучения и тестирования были взяты из набора NIST для обучения, а другая половина — из набора NIST для тестирования[7].

Производились многочисленные попытки достичь минимальной ошибки после обучения по базе данных MNIST, которые обсуждались в научной литературе. Рекордные результаты указывались в публикациях, посвящённых использованию свёрточных нейронных сетей, уровень ошибки был доведён до 0,23 %[8]. Сами создатели базы данных предусмотрели несколько методов тестирования[5]. В оригинальной работе указывается, что использование метода опорных векторов позволяет достичь уровня ошибки 0,8 %[9].

Качество результата и развитие подходов

В некоторых работах отмечают высокие результаты систем, построенных на ансамблях из нескольких нейронных сетей; при этом качество распознавания цифр для базы MNIST оказывается сравнимым с уровнем человека, а для других задач распознавания, в частности, для дорожных знаков — даже в два раза лучше[8].

На оригинальных страницах создателей[5] отмечаются ошибки в 12 % при использовании простых линейных классификаторов без предварительной обработки[9].

В 2004 году система LIRA, использующая трёхслойный перцептрон Розенблатта, получила уровень ошибки 0,42 %[10].

Проводились исследование на обучении по системе MNIST с использованием случайных искажений. В качестве искажений вводились аффинные или упругие преобразования[5]. Иногда такие системы достигали хороших показателей, в частности имеются публикации про уровень ошибки 0,39 %[11].

В 2011 был достигнут уровень ошибок 0,27 % при использовании нейронных сетей[12]. В 2013 появились публикации о достижении ошибки 0,21 %, используя регуляризацию нейронных сетей (через разрывы соединений DropConnect)[13].

Позднее применение одиночной свёрточной нейронной сети позволило улучшить качество до уровня ошибки 0,31 %[14]. Самый лучший результат на одиночной свёрточной нейронной сети показала система, полученная после 74 эпох обучения — 0,27 %[15]. Однако ансамбль из пяти свёрточных нейронных сетей позволил добиться 0,21%-го уровня ошибок[16][17]. В 2018 году исследователи, использующие Random Multimodel Deep Learning (RMDL), сообщили об ошибке в размере 0,18 процента, улучшив предыдущий наилучший результат: новый ансамбль, метод глубокого обучения для классификации [18].

Сопоставление систем

В таблице собраны примеры результатов машинного обучения в различных системах классификации изображений:[19]

Тип Структура Искажения Предварительная обработка Ошибка (%)
Линейный классификатор Одноуровневый перцептрон Шаблон:Okay Шаблон:Okay 12[8]
Линейный классификатор Попарный линейный классификатор Шаблон:Okay Выравнивание 7.6[9]
Метод k ближайших соседей K-NN с нелинейной деформацией (P2DHMDM) Шаблон:Okay Shiftable edges 0.52[20]
Gradient boosting Обработка остатков на базе признаков Хаара Шаблон:Okay Признаки Хаара 0.87[21]
Нелинейный классификатор 40 PCA + квадратичный классификатор Шаблон:Okay Шаблон:Okay 3.3[9]
Метод опорных векторов Виртуальная система опорных векторов, deg-9 poly, 2-pixel jittered Шаблон:Okay Выравнивание 0.56[22]
Нейронная сеть 2-уровневая сеть 784-800-10 Шаблон:Okay Шаблон:Okay 1.6[23]
Нейронная сеть 2-уровневая сеть 784-800-10 Упругие деформации Шаблон:Okay 0.7[23]
Глубокая нейронная сеть 6-уровневая сеть 784-2500-2000-1500-1000-500-10 Упругие деформации Шаблон:Okay 0.35[24]
Свёрточная нейронная сеть 6-уровневая сеть 784-40-80-500-1000-2000-10 Шаблон:Okay Расширение данных для обучения 0.31[14]
Свёрточная нейронная сеть 6-уровневая сеть 784-50-100-500-1000-10-10 Шаблон:Okay Расширение данных для обучения 0.27[15]
Свёрточная нейронная сеть Ансамбль из 35 CNN-сетей, 1-20-P-40-P-150-10 Упругие деформации С нормализацией 0.23[8]
Свёрточная нейронная сеть Ансамбль из 5 CNN-сетей, 6-уровней 784-50-100-500-1000-10-10 Шаблон:Okay Расширение данных для обучения 0.21[16]
Случайное мультимодельное глубокое обучение (RMDL) 30 моделей случайного глубокого обучения (RDL) (10 CNN, 10 RNN и 10 DNN) Шаблон:Okay Шаблон:Okay 0.18[18]

См. также

Примечания

Шаблон:Примечания

Литература

Ссылки