Русская Википедия:Процессор глубокого обучения

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Процессор глубокого обучения (Deep learning processor, DLP) или ускоритель глубокого обучения — это электронная схема, разработанная для алгоритмов глубокого обучения, обычно с отдельной памятью данных и специализированной архитектурой набора команд. Процессоры глубокого обучения варьируются от мобильных устройств, таких как блоки нейронной обработки (NPU) в мобильных телефонах Huawei[1], до серверов облачных вычислений, таких как Тензорный процессор Google (TPU) в Google Cloud Platform[2].

Цель создания специализированных устройств DLP — обеспечить более высокую эффективность и производительность для алгоритмов глубокого обучения, чем обычные центральные процессоры (CPU) и графические процессоры (GPU). Большинство DLP используют большое количество вычислительных компонентов для использования параллелизма на высоком уровне данных, относительно большие буфер / память на кристалле для использования шаблонов повторного использования данных и операторы ограниченной ширины данных для обеспечения устойчивости к ошибкам при глубоком обучении.

История

Использование центральных и графических процессоров

Первоначально для выполнения алгоритмов глубокого обучения были адаптированы процессоры общего назначения. Позже для целей глубокого обучения стали использоваться и графические процессоры. Например, в 2012 году Алекс Крижевский использовал два графических процессора для обучения сети глубокого обучения, названной AlexNet[3], которая стала победителем конкурса ISLVRC-2012. Поскольку интерес к алгоритмам глубокого обучения и DLP продолжил расти, производители графических процессоров начинают добавлять функции, связанные с глубоким обучением, как в аппаратное обеспечение (например, операторы INT8), так и в программное обеспечение (например, библиотеку cuDNN). Так, Nvidia выпустила ядро Turing Tensor Core — DLP — для ускорения обработки глубокого обучения.

Первые DLP

Чтобы обеспечить более высокую эффективность в производительности и энергопотреблении, разработчики оборудования обращают внимание предметно-ориентированный дизайн устройств. В 2014 году команда исследователей под руководством Tianshi Chen предложила первый в мире DLP, DianNao (по-китайски «электрический мозг»)[4], специализированный для ускорения глубоких нейронных сетей. DianNao обеспечивает пиковую производительность 452 Gop / s (ключевых операций в глубоких нейронных сетях) при небольшой занимаемой площади 3,02 мм2 и потребляемой мощности 485 мВт. Следующие версии процессора (DaDianNao[5], ShiDianNao[6], PuDianNao[7]), образующие семейство микросхем DianNao были предложены той же группой разработчиков[8].

Дальнейшее развитие

После появления семейства процессоров DianNao, аналогичные по идеологии разработки велись как в академических кругах, так и в промышленности. Только на ежегодной Шаблон:Iw ISCA 2016 три сессии, 15% (!) принятых докладов описывали проекты архитектуры процессоров глубокого обучения. В числе заслуживающих упоминания проектов можно назвать Eyeriss[9] (Массачусетский технологический институт), EIE[10] (Стэнфорд), Minerva[11] (Гарвард), Stripes[12] (Университет Торонто) - из числа академических работ и TPU[13] (Google), MLU[14] (Cambricon) - из числа промышленных разработок.

Примечания

Шаблон:Примечания