Русская Википедия:Долгая краткосрочная память

Простой LSTM-блок с тремя вентилями: входным, выходным и забывания. LSTM-блоки могут обладать большим числом вентилей.^[1]

Длинная цепь элементов краткосрочной памяти (Шаблон:Lang-en; LSTM) — разновидность архитектуры рекуррентных нейронных сетей, предложенная в 1997 году Зеппом Хохрайтером и Юргеном Шмидхубером^[2]. Как и большинство рекуррентных нейронных сетей, LSTM-сеть является универсальной в том смысле, что при достаточном числе элементов сети она может выполнить любое вычисление, на которое способен обычный компьютер, для чего необходима соответствующая матрица весов, которая может рассматриваться как программа. В отличие от традиционных рекуррентных нейронных сетей, LSTM-сеть хорошо приспособлена к обучению на задачах классификации, обработки и прогнозирования временных рядов в случаях, когда важные события разделены временными лагами с неопределённой продолжительностью и границами. Относительная невосприимчивость к длительности временных разрывов даёт LSTM преимущество по отношению к альтернативным рекуррентным нейронным сетям, скрытым марковским моделям и другим методам обучения для последовательностей в различных сферах применения. Из множества достижений LSTM-сетей можно выделить наилучшие результаты в распознавании несегментированного слитного рукописного текста^[3], и победу в 2009 году на соревнованиях по распознаванию рукописного текста (Шаблон:Iw). LSTM-сети также используются в задачах распознавания речи, например LSTM-сеть была основным компонентом сети, которая в 2013 году достигла рекордного порога ошибки в 17,7 % в задаче распознавания фонем на классическом корпусе естественной речи Шаблон:Iw^[4]. По состоянию Шаблон:На ведущие технологические компании, включая Google, Apple, Microsoft и Baidu, используют LSTM-сети в качестве фундаментального компонента новых продуктов^[5]^[6].

Архитектура

LSTM-сеть — это искусственная нейронная сеть, содержащая LSTM-модули вместо или в дополнение к другим сетевым модулям. LSTM-модуль — это рекуррентный модуль сети, способный запоминать значения как на короткие, так и на длинные промежутки времени. Ключом к данной возможности является то, что LSTM-модуль не использует функцию активации внутри своих рекуррентных компонентов. Таким образом, хранимое значение не размывается во времени, и градиент или штраф не исчезает при использовании Шаблон:Нп2 при обучении искусственной нейронной сети.

LSTM-модули часто группируются в «блоки», содержащие различные LSTM-модули. Подобное устройство характерно для «глубоких» многослойных нейронных сетей и способствует выполнению параллельных вычислений с применением соответствующего оборудования. В формулах ниже каждая переменная, записанная строчным курсивом, обозначает вектор размерности равной числу LSTM-модулей в блоке.

LSTM-блоки содержат три или четыре «вентиля», которые используются для контроля потоков информации на входах и на выходах памяти данных блоков. Эти вентили реализованы в виде логистической функции для вычисления значения в диапазоне [0; 1]. Умножение на это значение используется для частичного допуска или запрещения потока информации внутрь и наружу памяти. Например, «входной вентиль» контролирует меру вхождения нового значения в память, а «вентиль забывания» контролирует меру сохранения значения в памяти. «Выходной вентиль» контролирует меру того, в какой степени значение, находящееся в памяти, используется при расчёте выходной функции активации для блока. (В некоторых реализациях входной вентиль и вентиль забывания воплощаются в виде единого вентиля. Идея заключается в том, что старое значение следует забывать тогда, когда появится новое значение, достойное запоминания).

Веса в LSTM-блоке (<math>W</math> и <math>U</math>) используются для задания направления оперирования вентилей. Эти веса определены для значений, которые подаются в блок (включая <math>x_t</math> и выход с предыдущего временного шага <math>h_{t-1}</math>) для каждого из вентилей. Таким образом, LSTM-блок определяет, как распоряжаться своей памятью как функцией этих значений, и тренировка весов позволяет LSTM-блоку выучить функцию, минимизирующую потери. LSTM-блоки обычно тренируют при помощи метода обратного распространения ошибки во времени.

Традиционная LSTM

Традиционная LSTM с вентилями забывания^[2]^[7] <math>c_0 = 0</math> и <math>h_0 = 0</math> (<math>\circ</math> обозначает произведение Адамара):

<math>

\begin{align} f_t &= \sigma_g(W_{f} x_t + U_{f} h_{t-1} + b_f) \\ i_t &= \sigma_g(W_{i} x_t + U_{i} h_{t-1} + b_i) \\ o_t &= \sigma_g(W_{o} x_t + U_{o} h_{t-1} + b_o) \\ c_t &= f_t \circ c_{t-1} + i_t \circ \sigma_c(W_{c} x_t + U_{c} h_{t-1} + b_c) \\ h_t &= o_t \circ \sigma_h(c_t) \end{align} </math>

Переменные:

<math>x_t</math> — входной вектор,
<math>h_t</math> — выходной вектор,
<math>c_t</math> — вектор состояний,
<math>W</math>, <math>U</math> и <math>b</math> — матрицы параметров и вектор,
<math>f_t</math>, <math>i_t</math> и <math>o_t</math> — векторы вентилей,
- <math>f_t</math> — вектор вентиля забывания, вес запоминания старой информации,
- <math>i_t</math> — вектор входного вентиля, вес получения новой информации,
- <math>o_t</math> — вектор выходного вентиля, кандидат на выход.

Функции активации:

<math>\sigma_g</math>: на основе сигмоиды.
<math>\sigma_c</math>: на основе гиперболического тангенса.
<math>\sigma_h</math>: на основе гиперболического тангенса, но в работе о глазках (смотровых отверстиях) для LSTM предполагается, что <math>\sigma_h(x) = x</math>.^[8]^[9]

LSTM с «глазками»

Глазочная LSTM с вентилями забывания^[8]^[9] <math>h_{t-1}</math> не используется, <math>c_{t-1}</math> используется в качестве замены в большинстве мест:

<math>

\begin{align} f_t &= \sigma_g(W_{f} x_t + U_{f} c_{t-1} + b_f) \\ i_t &= \sigma_g(W_{i} x_t + U_{i} c_{t-1} + b_i) \\ o_t &= \sigma_g(W_{o} x_t + U_{o} c_{t-1} + b_o) \\ c_t &= f_t \circ c_{t-1} + i_t \circ \sigma_c(W_{c} x_t + b_c) \\ h_t &= o_t \circ \sigma_h(c_t) \end{align} </math>

Свёрточная LSTM

Свёрточная LSTM^[10] (<math>*</math> обозначает оператор свёртки):

<math>

\begin{align} f_t &= \sigma_g(W_{f} * x_t + U_{f} * h_{t-1} + V_{f} \circ c_{t-1} + b_f) \\ i_t &= \sigma_g(W_{i} * x_t + U_{i} * h_{t-1} + V_{i} \circ c_{t-1} + b_i) \\ o_t &= \sigma_g(W_{o} * x_t + U_{o} * h_{t-1} + V_{o} \circ c_{t-1} + b_o) \\ c_t &= f_t \circ c_{t-1} + i_t \circ \sigma_c(W_{c} * x_t + U_{c} * h_{t-1} + b_c) \\ h_t &= o_t \circ \sigma_h(c_t) \end{align} </math>

Тренировка

Для минимизации общей ошибки LSTM на всём множестве тренировочных последовательностей, итеративный градиентный спуск такой как метод обратного распространения ошибки развёрнутый во времени может быть использован для изменения каждого из весов пропорционально его производной в зависимости от величины ошибки. Главной проблемой градиентного спуска для стандартных рекуррентных нейронных сетей является то, что градиенты ошибок уменьшаются с экспоненциальной скоростью по мере увеличения временной задержки между важными событиями, что было выявлено в 1991^[11]^[12]. С LSTM-блоками, тем не менее, когда величины ошибки распространяются в обратном направлении от выходного слоя, ошибка оказывается заперта в памяти блока. Это называют «каруселью ошибок», которая непрерывно «скармливает» ошибку обратно каждому из вентилей, пока они не будут натренированы отбрасывать значение. Таким образом, регулярное обратное распространение ошибки эффективно для тренировки LSTM-блока для запоминания значений на очень длительные временные промежуткиШаблон:Нет АИ.

LSTM также можно тренировать при помощи комбинации эволюционного алгоритма для весов в скрытых слоях и псевдообратных матриц или метода опорных векторов для весов в выходном слое.^[13] В обучении с подкреплением LSTM можно тренировать при помощи непосредственного поиска в пространстве стратегий, эволюционных стратегий или генетических алгоритмов.

Применения

Описаны примеры применения LSTM: в робототехнике^[14], для анализа временных рядов^[15], для распознавания речи^[4]^[16]^[17], в ритмическом обучении^[9], для генерации музыкальных композиций^[18], в Шаблон:Нп2^[8]^[19]^[20], в задачах распознавания рукописного ввода^[21]^[22], для распознавания человеческой активности^[23], в задаче выявления гомологичных белков^[24].

Примечания

Шаблон:Примечания

Ссылки

Рекуррентные нейронные сети — более 30 статей о LSTM за авторством группы Юргена Шмидхубера в Шаблон:Lang-en2
PhD-диссертация о LSTM-сетях.
Статья о выявлении мошенничества с двумя главами посвящёнными объяснению рекуррентных нейронных сетей, в особенности LSTM.
Статья о высокопроизводительном расширении LSTM, упрощённой до типа единичного узла, способного выучивать произвольные архитектуры.
Руководство: Как реализовать LSTM-сеть на Питоне при помощи Theano

Внешние ссылки

↑ Шаблон:Cite arXiv
↑ ^2,0 ^2,1 Шаблон:Статья Шаблон:Cite web
↑ A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.
↑ ^4,0 ^4,1 Шаблон:Статья
↑ Шаблон:Cite web
↑ Шаблон:Cite web
↑ Шаблон:Статья
↑ ^8,0 ^8,1 ^8,2 Шаблон:Статья
↑ ^9,0 ^9,1 ^9,2 Шаблон:Статья
↑ Шаблон:Статья
↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.
↑ S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.
↑ Шаблон:Статья
↑ H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. Advanced Robotics, 22/13-14, pp. 1521—1537, 2008.
↑ J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853—858, 2005.
↑ Шаблон:Статья
↑ S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural Networks ICANN’07, 2007.
↑ D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks ICANN’02, Madrid, pages 284—289, Springer, Berlin, 2002.
↑ Шаблон:Статья
↑ Шаблон:Статья
↑ A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS’22, pp 545—552, Vancouver, MIT Press, 2009.
↑ A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in Neural Information Processing Systems 21, NIPS’21, pp 577—584, 2008, MIT Press, Cambridge, MA, 2008.
↑ M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29-39. Lecture Notes in Computer Science 7065. Springer. 2011
↑ Шаблон:Статья

Шаблон:Выбор языка Шаблон:Типы искусственных нейронных сетей Шаблон:Машинное обучение

[1] Шаблон:Cite arXiv

[lstm1997-2] 2,0 ^2,1 Шаблон:Статья Шаблон:Cite web

[3] A. Graves, M. Liwicki, S. Fernandez, R. Bertolami, H. Bunke, J. Schmidhuber. A Novel Connectionist System for Improved Unconstrained Handwriting Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 31, no. 5, 2009.

[автоссылка1-4] 4,0 ^4,1 Шаблон:Статья

[5] Шаблон:Cite web

[6] Шаблон:Cite web

[lstm2000-7] Шаблон:Статья

[peepholeLSTM-8] 8,0 ^8,1 ^8,2 Шаблон:Статья

[peephole2002-9] 9,0 ^9,1 ^9,2 Шаблон:Статья

[10] Шаблон:Статья

[11] S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen. Diploma thesis, Institut f. Informatik, Technische Univ. Munich, 1991.

[12] S. Hochreiter, Y. Bengio, P. Frasconi, and J. Schmidhuber. Gradient flow in recurrent nets: the difficulty of learning long-term dependencies. In S. C. Kremer and J. F. Kolen, editors, A Field Guide to Dynamical Recurrent Neural Networks. IEEE Press, 2001.

[13] Шаблон:Статья

[14] H. Mayer, F. Gomez, D. Wierstra, I. Nagy, A. Knoll, and J. Schmidhuber. A System for Robotic Heart Surgery that Learns to Tie Knots Using Recurrent Neural Networks. Advanced Robotics, 22/13-14, pp. 1521—1537, 2008.

[15] J. Schmidhuber and D. Wierstra and F. J. Gomez. Evolino: Hybrid Neuroevolution / Optimal Linear Search for Sequence Learning. Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI), Edinburgh, pp. 853—858, 2005.

[16] Шаблон:Статья

[17] S. Fernandez, A. Graves, J. Schmidhuber. An application of recurrent neural networks to discriminative keyword spotting. Intl. Conf. on Artificial Neural Networks ICANN’07, 2007.

[18] D. Eck and J. Schmidhuber. Learning The Long-Term Structure of the Blues. In J. Dorronsoro, ed., Proceedings of Int. Conf. on Artificial Neural Networks ICANN’02, Madrid, pages 284—289, Springer, Berlin, 2002.

[19] Шаблон:Статья

[20] Шаблон:Статья

[21] A. Graves, J. Schmidhuber. Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks. Advances in Neural Information Processing Systems 22, NIPS’22, pp 545—552, Vancouver, MIT Press, 2009.

[22] A. Graves, S. Fernandez,M. Liwicki, H. Bunke, J. Schmidhuber. Unconstrained online handwriting recognition with recurrent neural networks. Advances in Neural Information Processing Systems 21, NIPS’21, pp 577—584, 2008, MIT Press, Cambridge, MA, 2008.

[23] M. Baccouche, F. Mamalet, C Wolf, C. Garcia, A. Baskurt. Sequential Deep Learning for Human Action Recognition. 2nd International Workshop on Human Behavior Understanding (HBU), A.A. Salah, B. Lepri ed. Amsterdam, Netherlands. pp. 29-39. Lecture Notes in Computer Science 7065. Springer. 2011

[24] Шаблон:Статья

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

Партнерские ресурсы
Криптовалюты	Обмен криптовалют - www.bestchange.ru Криптовалютная биржа CoinEx Криптовалютная биржа Binance HIVE OS - операционная система для майнинга e4pool - Мультивалютный пул для майнинга.
Магазины	AliExpress — глобальная виртуальная (в Интернете) торговая площадка, предоставляющая возможность покупать товары производителей из КНР; computeruniverse.net - Интернет-магазин компьютеров(Промо код 5 Евро на первую покупку:FWWC3ZKQ);
Хостинг	DigitalOcean - американский провайдер облачных инфраструктур, с главным офисом в Нью-Йорке и с центрами обработки данных по всему миру;
Разное	Викиум - Онлайн-тренажер для мозга Like Центр - Центр поддержки и развития предпринимательства. Gamersbay - лучший магазин по бустингу для World of Warcraft. Ноотропы OmniMind N°1 - Усиливает мозговую активность. Повышает мотивацию. Улучшает память. Санкт-Петербургская школа телевидения - это федеральная сеть образовательных центров, которая имеет филиалы в 37 городах России. Lingualeo.com — интерактивный онлайн-сервис для изучения и практики английского языка в увлекательной игровой форме. Junyschool (Джунискул) – международная школа программирования и дизайна для детей и подростков от 5 до 17 лет, где ученики осваивают компьютерную грамотность, развивают алгоритмическое и креативное мышление, изучают основы программирования и компьютерной графики, создают собственные проекты: игры, сайты, программы, приложения, анимации, 3D-модели, монтируют видео. Умназия - Интерактивные онлайн-курсы и тренажеры для развития мышления детей 6-13 лет SkillBox - это один из лидеров российского рынка онлайн-образования. Среди партнеров Skillbox ведущий разработчик сервисного дизайна AIC, медиа-компания Yoola, первое и самое крупное русскоязычное аналитическое агентство Tagline, онлайн-школа дизайна и иллюстрации Bang! Bang! Education, оператор PR-рынка PACO, студия рисования Draw&Go, агентство performance-маркетинга Ingate, scrum-студия Sibirix, имидж-лаборатория Персона. «Нетология» — это университет по подготовке и дополнительному обучению специалистов в области интернет-маркетинга, управления проектами и продуктами, дизайна, Data Science и разработки. В рамках Нетологии студенты получают ценные теоретические знания от лучших экспертов Рунета, выполняют практические задания на отработку полученных навыков, общаются с экспертами и единомышленниками. Познакомиться со всеми продуктами подробнее можно на сайте https://netology.ru, линейка курсов и профессий постоянно обновляется. StudyBay Brazil – это онлайн биржа для португалоговорящих студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт. Автор24 — самая большая в России площадка по написанию учебных работ: контрольные и курсовые работы, дипломы, рефераты, решение задач, отчеты по практике, а так же любой другой вид работы. Сервис сотрудничает с более 70 000 авторов. Более 1 000 000 работ уже выполнено. StudyBay – это онлайн биржа для англоязычных студентов и авторов! Студент получает уникальную работу любого уровня сложности и больше свободного времени, в то время как у автора появляется дополнительный заработок и бесценный опыт.

Русская Википедия:Долгая краткосрочная память

Содержание

Архитектура

Традиционная LSTM

LSTM с «глазками»

Свёрточная LSTM

Тренировка

Применения

Примечания

Ссылки

Навигация

Действия на странице

Действия на странице

Персональные инструменты

Навигация

Поиск

Инструменты