Русская Википедия:Нейроуправление

Материал из Онлайн справочника
Перейти к навигацииПерейти к поиску

Нейроуправление (Шаблон:Lang-en) — частный случай интеллектуального управления, использующий искусственные нейронные сети для решения задач управления динамическими объектами. Нейроуправление находится на стыке таких дисциплин, как искусственный интеллект, нейрофизиология, теория автоматического управления, робототехника. Нейронные сети обладают рядом уникальных свойств, которые делают их мощным инструментом для создания систем управления: способностью к обучению на примерах и обобщению данных, способностью адаптироваться к изменению свойств объекта управления и внешней среды, пригодностью для синтеза нелинейных регуляторов, высокой устойчивость к повреждениям своих элементов в силу изначально заложенного в нейросетевую архитектуру параллелизма. Термин «нейроуправление» впервые был использован одним из авторов метода обратного распространения ошибки Полом Дж. Вербосом в 1976 году[1][2]. Известны многочисленные примеры практического применения нейронных сетей для решения задач управление самолётом[3][4], вертолётом[5], автомобилем-роботом[6], скоростью вращения вала двигателя[7], гибридным двигателем автомобиля[8], электропечью[9], турбогенератором[10], сварочным аппаратом[11], пневмоцилиндром[12], системой управления вооружением легкобронированных машин[13], моделью перевернутого маятника[14].

Методы нейроуправления

Файл:Схема прямого нейроуправления с обратной связью.png
Схема прямого нейроуправления с обратной связью. На такте k нейроконтроллер получает на вход уставочное значение r(k+1) и оценку текущего состояния объекта S(k) и генерирует управляющее воздействие u(k), переводя объект управления в новое положение y(k+1).

По способу использования нейронных сетей методы нейроуправления делятся на прямые и непрямые. В прямых методах нейронная сеть обучается непосредственно генерировать управляющие воздействия на объект, в непрямых методах нейронная сеть обучается выполнять вспомогательные функции: идентификация объекта управления, подавление шума, оперативная настройка коэффициентов ПИД-контроллера. В зависимости от числа нейросетей, составляющих нейроконтроллер, системы нейроуправления делятся на одномодульные и многомодульные. Системы нейроуправления, которые применяются совместно с традиционными регуляторами, называются гибридными.

В области управления искусственные нейронные системы (ИНС) находят применение в задачах идентификации объектов, в алгоритмах прогнозирования и диагностики, а также для синтеза оптимальных Автоматических Систем Регулирования (АСР). Для реализации АСР на основе ИНС в настоящее время интенсивно развивается производство нейрочипов и нейроконтроллеров (НК).

В определённом смысле ИНС является имитатором мозга, обладающего способностью к обучению и ориентации в условиях неопределенности. Искусственная нейросеть сходна с мозгом в двух аспектах. Сеть приобретает знания в процессе обучения, а для сохранения знаний использует не сами объекты, а их связи — значения коэффициентов межнейронных связей, называемые синаптическими весами или синаптическими коэффициентами[15].

В задачах нейроуправления для представления объекта управления используют модель чёрного ящика, в котором наблюдаемыми являются текущие значения входа и выхода. Состояние объекта считается недоступным для внешнего наблюдения, хотя размерность вектора состояний обычно считается фиксированной. Динамику поведения объекта управления можно представить в дискретном виде:

<math> \begin{matrix}S(k+1)=\Phi(S(k), u(k))) \\ y(k+1)=\Psi(S(k)) \end{matrix} </math>

где: <math>S(k)\in\mathbb{R}^N</math> — состояние объекта управления порядка <math>N</math> на такте <math>k</math>; <math>u(k)\in\mathbb{R}^P</math> — значение <math>P</math>-мерного вектора управления на такте <math>k</math>, <math>y(k+1)\in\mathbb{R}^V</math> — значение <math>V</math>-мерного выхода объекта управления на такте <math>k+1</math>.

Для оценки текущего состояния объекта управления <math>S(k)</math>может быть использована модель NARX, состоящая из прошлых положений объекта <math>y</math> и задержанных сигналов управления <math>u</math>:

<math>

S(k) = [y(k)~y(k-1)~y(k-2)~\ldots~y(k-N)~u(k-1)~u(k-2)~\ldots~u(k-Q)]^T </math>

Вектор оценки состояния <math>S</math> может быть также представлен без использования задержанных сигналов:

<math>

S(k) = [y(k)~y(k-1)~y(k-2)~\ldots~y(k-N)]^T </math>

Также возможно представить состояние объекта как мгновенный снимок его фазовой траектории:

<math>

S(k) = [y(k)~y(k)'~\ldots~y(k)^{(N)}]^T </math>

Подражающее нейроуправление

Файл:Схема подражающего нейроуправления.png
Схема подражающего нейроуправления: слева — режим обучения нейронной сети; справа — режим управления

Подражающее нейроуправление[16][17][18] (Neurocontrol learning based on mimic, controller modeling, supervised learning using an existing controller) охватывает системы нейроуправления, в которых нейроконтроллер обучается на примерах динамики обычного контроллера по обратной связи, построенного, например, на основе обычной ПИД-схемы управления. После обучения нейронная сеть в точности воспроизводит функции исходного контроллера. В качестве примеров динамики контроллера может быть использована запись поведения человека-оператора. Обычный контроллер по обратной связи (или человек-оператор) управляет объектом управления в штатном режиме. Значения величин на входе и выходе контроллера протоколируются, и на основе протокола формируется обучающая выборка <math>U = \{P_i, T_i\}_{i=1}^M </math> для нейронной сети, содержащая <math>M</math> пар значений входа <math>P_i</math> и ожидаемых реакций <math>T_i</math> нейросети:

<math> \begin{matrix}P_i = [r(i+1)~S(i)]^T \\ T_i = u(i) \end{matrix} </math>

После обучения с помощью, например, метода обратного распространения ошибки, нейронная сеть подключается вместо исходного контроллера. Полученный нейроконтроллер может заменить человека в управлении устройством, а также быть более выгодным экономически, чем исходный контроллер.

Обобщённое инверсное нейроуправление

Файл:Схема обобщенного инверсного нейроуправления.png
Схема обобщённого инверсного нейроуправления: слева — режим обучения инверсного нейроэмулятора; справа — режим управления объектом

В схеме обобщённого инверсного нейроуправления (generalized inverse neurocontrol, direct inverse neurocontrol, adaptive inverse control)[19][20] в качестве контроллера используется нейронная модель инверсной динамики объекта управления, называемая инверсный нейроэмулятор. Инверсный нейроэмулятор представляет собой нейронную сеть, обученную в режиме офлайн имитировать обратную динамику объекта управления на основе записанных траекторий поведения динамического объекта. Для получения таких траекторий на объект управления в качестве управляющего сигнала подают некоторый случайный процесс. Значения управляющих сигналов и ответных реакций объекта протоколируют и на этой основе формируют обучающую выборку <math>U = \{P_i, T_i\}_{i=1}^M </math>:

<math> \begin{matrix}P_i = [y(i)~S(i-1)]^T \\ T_i = u(i) \end{matrix} </math>

В ходе обучения нейронная сеть должна уловить и запомнить зависимость значений управляющего сигнала <math>u(k-1)</math> от последующего значения реакции объекта управления <math>y(k)</math>, находящегося перед этим в состоянии <math>S(k-1)</math>. При управлении объектом инверсный нейроэмулятор подключается как контроллер, получая при этом на вход <math>x(k)</math> значения уставки (некоторой величины или параметра, по достижении которого происходит изменение состояния системы) <math>r(k+1)</math> и состояния объекта управления <math>S(k)</math>, поступающего по каналу обратной связи:

<math>x(k)=[r(k+1)~S(k)]^T</math>

Предполагается, что сформированная при обучении инверсная модель объекта управления является адекватной, следовательно, сигнал управления, выдаваемый нейронной сетью, обеспечит переход объекта в положение, заданное уставкой.

Специализированное инверсное нейроуправление

Специализированное инверсное нейроуправление (specialised inverse neurocontrol)[19][20] использует методику обучения нейроконтроллера в режиме онлайн, используя текущую ошибку отклонения положения объекта от уставки <math>e(k)=r(k)-y(k)</math>. Схема подключения нейроконтроллера такая же, как в методе обобщённого инверсного нейроуправления. На вход сети подается вектор <math>x(k)</math>:

<math>x(k)=[r(k+1)~S(k)]^T</math>

Нейронная сеть генерирует управляющий вектор <math>u(k)</math>, который переводит объект управления в положение <math>y(k+1)</math>. Далее вычисляется текущая ошибка работы нейроконтроллера

<math>e(k)=r(k+1)-y(k+1)</math>

Вычисляется градиент изменения весов

<math>\Delta w = e(k) \frac{\partial y(k+1)}{\partial u(k)} \frac{\partial u(k)}{\partial w(k)}</math>

Затем производится коррекция весов нейроконтроллера по методу наискорейшего спуска или каким-либо другим градиентным методом.

Производная <math>\frac{\partial y(k+1)}{\partial u(k)}</math> представляет собой якобиан объекта управления, значение которого задается аналитически по заданной математической модели объекта управления. Однако, на практике, для получения приемлемого качества управления часто бывает достаточно вычислить лишь знак якобиана. Итерации коррекции значений коэффициентов продолжаются до достижения приемлемого качества управления.

Метод обратного пропуска ошибки через прямой нейроэмулятор

Файл:Метод обратного пропуска ошибки через прямой нейроэмулятор.png
Метод обратного пропуска ошибки через прямой нейроэмулятор: слева — схема обучения прямого нейроэмулятора; справа — схема обучения нейроконтроллера

Метод обратного пропуска ошибки через прямой нейроэмулятор (backpropagation through time, model reference adaptive control, internal model control)[8][21][22][23] основан на идее применения тандема из двух нейронных сетей, одна из которых выполняет функцию контроллера, а вторая — модели объекта управления, которая носит название прямой нейроэмулятор. Прямой нейроэмулятор служит для вычисления градиента ошибки нейроконтроллера в процессе его обучения и далее не используется. Можно сказать, что нейроконтроллер и нейроэмулятор представляют собой единую нейросеть, при этом при обучении нейроконтроллера веса прямого нейроэмулятора «замораживаются». Прямой нейроэмулятор обучается первым. Для этого на вход объекта управления подаётся случайный управляющий сигнал <math>u</math>, изменяющий положение объекта управления <math>y</math>, и формируется обучающая выборка <math>U = \{P_i, T_i\}_{i=1}^M </math>:

<math>\begin{matrix} P_i = [u(i)~S(i-1)]^T \\ T_i = y(i) \end{matrix}</math>

Обучение прямого нейроэмулятора выполняется в режиме офлайн. Прямой нейроэмулятор считается обученным, если при одинаковых значениях на входах нейроэмулятора и реального объекта отличие между значениями их выходов становится незначительным. После завершения обучения прямого нейроэмулятора проводится обучение нейроконтроллера. Обучение выполняется в режиме онлайн по такой же схеме, как и в случае специализированного инверсного нейроуправления. Сначала (на такте <math>k</math>) на вход нейроконтроллера поступает желаемое положение объекта управления для следующего такта <math>r(k+1)</math>. Нейроконтроллер генерирует сигнал управления <math>u(k)</math>, который поступает на входы объекта управления и нейроэмулятора. В результате управляемый объект переходит в положение <math>y(k+1)</math>, а нейроэмулятор генерирует реакцию <math>\hat{y}(k+1)</math>. Далее вычисляется ошибка управления <math>e(k)=\widehat{y}(k+1)-y(k+1)</math> и пропускается в обратном направлении по правилу обратного распространения. Весовые коэффициенты связей нейроэмулятора при этом не корректируются. Механизм обратного прохождения ошибки через прямой нейроэмулятор реализует локальную инверсную модель в текущей точке пространства состояний объекта управления. Пройдя через нейроэмулятор, ошибка далее распространяется через нейроконтроллер, но теперь её прохождение сопровождается коррекцией весовых коэффициентов нейроконтроллера. Прямой нейроэмулятор при этом выполняет функции дополнительных слоев нейроной сети нейроконтроллера, в которых веса связей не корректируются.

Метод нейроуправления с эталонной моделью

Файл:Нейроуправление с эталонной моделью.png
Нейроуправление с эталонной моделью

Метод нейроуправления с эталонной моделью (model reference adaptive control, neural adaptive control)[23][24][25] — вариант нейроуправления по методу обратного пропуска ошибки через прямой нейроэмулятор с дополнительно внедрённой в схему эталонной моделью (reference model) динамической системы, имитировать поведение которой обучается нейроконтроллер. Это делается в целях повышения качества переходного процесса: в случае, когда переход объекта в целевое положение за один такт невозможен, траектория движения и время осуществления переходного процесса становятся плохо прогнозируемыми величинами и могут привести к неустойчивости переходного процесса. Для уменьшения этой неопределенности вводится эталонная модель, представляющая собой, как правило, устойчивую линейную динамическую систему первого или второго порядка. В ходе обучения эталонная модель на такте <math>k</math> получает на вход уставку <math>r(k+1)</math> и генерирует опорную траекторию <math>y'(k+1)</math>, которая сравнивается с положением объекта управления <math>y(k+1)</math> с целью получить ошибку управления <math>e(k+1)</math>, минимизировать которую обучается нейроконтроллер.

Метод нейросетевой фильтрации внешних возмущений

Файл:Схема метода нейросетевой фильтрации внешних возмущений.png
Схема метода нейросетевой фильтрации внешних возмущений

Метод нейросетевой фильтрации внешних возмущений (adaptive inverse control based on linear and nonlinear adaptive filtering, internal model control)[26] служит для улучшения качества работы контроллера в цепи управления. Изначально эта схема была предложена Б. Уидроу для использования совместно с нейроконтроллерами, обученными по методу обобщенного инверсного нейроуправления[27]. В более поздней работе[28] им были применены нейроконтроллеры, обученные по методу обратного распространения ошибки через прямой нейроэмулятор. В принципе, нейросетевую фильтрацию ошибок можно использовать для повышения качества работы контроллера любого типа, не обязательно нейросетевого. В этой схеме используется две предварительно обученных нейронных сети: инверсный нейроэмулятор, обученный так же, как это делается в методе обобщенного инверсного нейроуправления и прямой нейроэмулятор, обученный так же, как это делается в методе обратного распространения ошибки через прямой нейроэмулятор. Пусть на объект управления поступает управляющий сигнал <math>\hat{u}_F(k)</math>, явившийся результатом суммирования сигнала контроллера <math>\hat{u}(k)</math> и корректирующего сигнала системы фильтрации внешних возмущений <math>\hat{u}_C(k)</math>, вычисленного на предыдущем такте. Сигнал направляется на прямой нейроэмулятор объекта управления, а реакция прямого нейроэмулятора сравнивается с реальным положением системы <math>y(k)</math>. Разница этих величин <math>e(k)</math> трактуется как нежелательное отклонение системы, вызванное внешним возмущением. Для подавления нежелательного эффекта сигнал поступает на инверсный нейроэмулятор, который рассчитывает корректирующий сигнал <math>\hat{u}_C(k+1)</math> для корректировки управляющего сигнала нейроконтроллера <math>\hat{u}(k+1)</math> на следующем такте.

Для использования этого метода объект управления должен обладать обращаемой динамикой, а также необходимо иметь адекватную математическую или имитационную модель объекта управления для обучения прямого и инверсного нейроэмуляторов.

Прогнозирующее модельное нейроуправление

Файл:Схема прогнозирующего модельного нейроуправления.png
Схема прогнозирующего модельного нейроуправления

Прогнозирующее модельное нейроуправление (NN predictive control, model predictive control, neural generalized predictive control)[29][30] минимизирует функционал стоимости интегральной ошибки <math>Q(k)</math>, прогнозируемой на <math>L=max(L_2, L_3)</math>, <math>0\le L_1\le L_2</math> тактов вперед:

<math>Q(k) = \sum_{i=L_1}^{L_2}e(k+i)^2+\rho \sum_{i=0}^{L_3}(u(k+i)-u(k+i-1))^2.</math>

Здесь <math>e(k)</math> — ошибка выхода системы, <math>\rho</math> — вклад изменения управляющего сигнала в общий функционал стоимости <math>Q(k)</math>. Для прогнозирования будущего поведения системы и вычисления ошибок используется прямой нейроэмулятор, обученный так же, как в методе обратного распространения ошибки через прямой нейроэмулятор. Примечательность рассматриваемого метода состоит в том, что в нём отсутствует обучаемый нейроконтроллер. Его место занимает оптимизационный модуль, работающий в режиме реального времени, в котором может быть использован, например, симплекс-метод[31] или квази-Ньютоновский алгоритм[32].

Оптимизационный модуль получает на такте целевую траекторию на <math>L</math> тактов вперед, а если её нет, то <math>L</math> раз дублирует значение текущей уставки <math>r(k+1)</math> и использует это в качестве целевой траектории. Далее, для выбора оптимального управляющего воздействия, вычисления происходят во внутреннем цикле системы нейроуправления (его итерации обозначаются как <math>j</math>). За время одного такта управления оптимизационный модуль подаёт на вход нейроэмулятора серию различных воздействий <math>\hat{u}(k+t,j)</math>, где <math>t</math> — глубина прогнозирования, <math>0\le t \le L-1</math> , получает различные варианты поведения системы, вычисляет для них функцию стоимости <math>Q(k)</math> и определяет наилучшую стратегию управления <math>ST=\{\hat{u}(k, j_1)~\hat{u}(k, j_2)~\ldots~~\hat{u}(k, j_L)\}</math>. В итоге, на объект подается управляющий сигнал <math>\hat{u}(k, j_1)</math>. На следующем такте стратегия <math>ST</math> пересчитывается заново.

Адаптивные критики

Файл:Схема адаптивной критики.png
Схема адаптивной критики: слева — этап управления; справа — этап обучения

Методы нейроуправления на основе адаптивной критики (adaptive critics), которые также известны как приближенное динамическое программирование (approximated dynamic programming, ADP), в последние годы весьма популярны[33][34][35][36]. Системы адаптивной критики выбирают управляющий сигнал на основе минимизации функционала оценок ошибок будущего с бесконечным горизонтом:

<math>

J(k) = \sum_{i=0}^{\infty}\gamma^ie(k+i)^2. </math>

Здесь <math>\gamma</math> — коэффициент забывания, <math>0<\gamma\le1</math>, <math>e(k)=r(k+1)-y(k+1)</math> — отклонение траектории объекта управления от уставки, вычисляемое на каждом такте работы системы. Система включает два нейронных модуля: нейроконтроллер и модуль критики (критик). Модуль критики выполняет аппроксимацию значений функционала стоимости <math>J(k)</math>, нейроконтроллер обучают минимизировать функционал стоимости <math>J(k)</math>.

В режиме управления объектом на вход нейроконтроллера поступает вектор <math>x(k) = [r(k+1)~S(k)]^T</math>, вызывающий появление на его выходе сигнала управления <math>u(k)</math>, в результате чего объект управления переходит в положение <math>y(k+1)</math>. Далее производится вычисление значения текущей ошибки управления <math>e(k)</math>. Модуль критики, получая на входе вектор <math>z(k)=[r(k+1)~u(k)~S(k)]^T</math>, производит оценку функции стоимости <math>J(k)</math>. На следующем такте процесс повторяется: вычисляются новые значения <math>e(k+1)</math> и <math>J(k+1)</math>. Обучение системы нейроуправления происходит в режиме онлайн и состоит из двух этапов: обучения модуля критики и обучения нейроконтроллера. Сначала рассчитывается ошибка временной разности <math>\delta w(k) = e(k) + \gamma J(k+1) - J(k)</math>. Затем по методу наискорейшего спуска выполняется коррекция веса связей для модуля критики <math>w_{critic}</math>:

<math>\Delta w_{critic}(k) = -{\alpha}_1 \delta (k) \frac{\partial J(k)}{\partial w_{critic}(k)}</math>

Значение градиента <math>\frac{\partial J(k)}{\partial w_{critic}(k)}</math> рассчитывается по методу обратного распространения ошибки. Коррекция веса связей нейроконтроллера <math>\Delta w_{control}</math> производится аналогично:

<math> \Delta w_{control}(k) = -{\alpha}_2 \frac{\partial J(k)}{\partial u(k)} \frac{\partial u(k)}{ \partial w_{control}(k)} </math>

Значение производной <math>\frac{\partial J(k)}{\partial u(k)}</math> находят путём обратного распространения величины через модуль критики, а значение градиента <math>\frac{\partial u(k)}{ \partial w_{control}(k)}</math> — путём обратного распространения ошибки через модуль контроллера. Коррекция весов продолжается, пока система не достигнет требуемого уровня качества управления. Таким образом, на каждом шаге улучшается закон управления, путём обучения нейроконтроллера (итерация по стратегиям, policy iteration), а также повышается способность системы оценивать ситуацию, путём обучения критика (итерация по значениям, value iteration). Конкретная схема построения системы адаптивной критики может отличаться от вышеописанной, носящей название эвристическое динамическое программирование (heuristic dynamic programming, HDP). В методе дуального эвристического программирования (dual heuristic programming, DHP) модуль критики вычисляет производную функционала глобальной стоимости <math>\frac{\partial J}{\partial t}</math>, а в методе глобального дуального эвристического программирования (global dual heuristic programming, GHDP) критиком вычисляются как сам функционал функции стоимости <math>J</math>, так и его производная <math>\frac{\partial J}{\partial t}</math>. Известны модификации метода, в которых модуль критики принимает решения исключительно на основе управляющего сигнала. Их англоязычные аббревиатуры имеют приставку AD (action dependent): ADHDP, ADDHP, ADGDHP. В некоторых версиях адаптивной критики модуль критики состоит из двух частей: собственно, модуля критики и прямого нейроэмулятора. Последний выдает предсказания поведение объекта управления, на основе которых критик формирует оценку функции стоимости <math>J</math>. Такие версии носят название основанные на модели (model based).

Гибридное нейро-ПИД управление

Файл:Схема гибридного нейро-ПИД управления.png
Схема гибридного нейро-ПИД управления

Гибридное нейро-ПИД управление (NNPID auto-tuning, neuromorphic PID self-tuning)[37][38] позволяет осуществлять самонастройку ПИД-регулятора в режиме онлайн путём использованием нейронных сетей. Настройка ПИД-регулятора выполняется в режиме онлайн, по текущей ошибке управления <math>e(k)=r(k+1)-y(k+1)</math>. На такте <math>k</math> нейронная сеть получает уставку <math>r(k+1)</math> и генерирует коэффициенты управления ПИД-контроллера <math>K_1</math> (пропорциональный), <math>K_2</math> (интегральный), <math>K_3</math> (дифференциальный), которые поступают на ПИД-контроллер вместе со значением текущей ошибки обратной связи <math>e(k)</math>. В ходе работы, ПИД-контроллер рассчитывает текущий управляющий сигнал <math>u(k)</math> по рекуррентной формуле:

<math>

u(k) = u(k-1) + K_1(k)(e(k)-e(k-1)) + K_2(k)e(k) + K_3(k)(e(k) - 2e(k-1) + e(k-2)) </math> применяемой для дискретных ПИД-контроллеров и подает его на объект управления.

Обучение нейросети происходит в режиме реального времени по ошибке обратной связи, методом наискорейшего спуска.

<math>

\Delta w(k) = -\alpha e(k) \frac{\partial y(k+1)}{\partial u(k)} \frac{\partial u(k)}{\partial K(k)} \frac{\partial K(k)}{\partial w(k)} </math>

Здесь <math>K(k)=[K_1(k)~K_2(k)~K_3(k)]^T</math> — вектор выходов нейронной сети, поступающий на ПИД-контроллер.

<math>

\frac{\partial u(k)}{\partial K_i(k)} = \Bigg \{ \begin{matrix} e(k) - e(k-1) & for~i = 1; \\ e(k) & for~i = 2; \\ e(k) - 2e(k-1) + e(k-2) & for~i = 3. \end{matrix} </math>

Градиенты <math>\frac{\partial K_i(k)}{\partial w(k)}</math> вычисляют методом обратного распространения ошибки. Якобиан объекта управления <math>\frac{\partial y(k+1)}{\partial u(k)}</math> ли его знак находится аналитически, на основе математической модели объекта управления.

Гибридное параллельное нейроуправление

Файл:Схема гибридного параллельного нейроуправления.png
Схема гибридного параллельного нейроуправления

Методы гибридного параллельного нейроуправления (parallel neurocontrol, stable direct adaptive control, additive feedforward control)[26][29] предусматривают параллельное использование нейроконтроллеров и обычных контроллеров для управления динамическими объектами. При этом нейроконтроллер и обычный контроллер, в роли которого выступает, например, ПИД-контроллер, получают одинаковые значения уставки. Возможны следующие варианты совместного подключения обычного контроллера и нейроконтроллера:

  1. к объекту управления подключается обычный контроллер, после чего нейроконтроллер обучается управлять уже замкнутой обычным контроллером системой. После обучения нейроконтроллер подключается к системе, а управляющие сигналы обоих контроллеров суммируются;
  2. нейроконтроллер учится управлять объектом управления, после обучения начинает функционировать в штатном режиме. Далее для управления замкнутой нейроконтроллером системой настраивается обычный контроллер. После настройки обычный контроллер подключается к системе, управляющий сигнал обоих контроллеров суммируется;
  3. области действия обычного контроллера и нейроконтроллера разграничиваются. Например, в пространстве состояний объекта управления для нейроконтроллера выделяется отдельная область <math>LS</math>:
<math>LS=[(y_1-d_1;y_1+d_1)~\ldots~(y_N-d_N;y_N+d_N)]^T</math>

При этом обычный контроллер рассчитывается на управление объектом вне этой области пространства состояния. При параллельной работе обоих контроллеров управляющий сигнал поступает на объект либо от нейроконтроллера, если текущее состояние системы находится в пределах области <math>LS</math>, либо, в противном случае, от обычного контроллера. Гибридное параллельное нейроуправление представляет компромиссное решение для внедрения нейроуправления в промышленность и перехода от обычных контроллеров к нейросетевым.

Примечания

Шаблон:Примечания

Ссылки

Литература

  1. Шаблон:Cite web
  2. Werbos, P.J. Backpropagation and neurocontrol: a review and prospectus // International Joint Conference on Neural Networks, Vol. 1. — P. 209—216. — Washington, DC , USA, 18-22 Jun 1989
  3. Шаблон:Cite web
  4. Шаблон:Cite web
  5. Шаблон:Cite web
  6. D. Gu and H. Hu. Neural Predictive Control for a Car-like Mobile Robot // International Journal of Robotics and Autonomous Systems, Vol. 39, No. 2-3, May, 2002
  7. [Терехов В. А., Ефимов Д. В., Тюкин И. Ю. Нейросетевые системы управления: Учеб. пособие для вузов. — М.: Высш. школа 2002. — 183 с.]
  8. 8,0 8,1 Шаблон:Cite web
  9. Шаблон:Cite web
  10. Шаблон:Cite web
  11. D’Emilia G., Marrab A., Natalea E. Use of neural networks for quick and accurate auto-tuning of PID controller // Robotics and Computer-Integrated Manufacturing. — 2007. — Vol. 23. — P. 170—179.
  12. Шаблон:Cite web
  13. Шаблон:Cite web
  14. Шаблон:Cite web
  15. Сабании В.Р. Автоматические системы регулирования на основе нейросетевых технологий / В.Р Сабанин, Н.И Смирнов, А.И. Репин // Труды Международной научной конференции Control-2003. М.: Издательство МЭИ, 2003.С. 45—51.
  16. [Widrow B., Smith F.W. Pattern-recognizing control systems // Proceedings of Computer and Information Sciences. — Washington, USA — 1964. — Vol. 12. — P. 288—317.]
  17. Omidvar O., Elliott D.L. eds. Neural Systems for Control // Academic Press, New York, 1997. — 358 с.
  18. Ronco E. Incremental Polynomial Controller Networks: Two Self-Organising Non-Linear Controllers // Ph.D. Disseration Thesis, Glasgow, 1997. — 207 p.
  19. 19,0 19,1 [Омату С., Халид М., Юсоф Р. Нейроуправление и его приложения: пер. с англ. — М.: ИПРЖР, 2000. — 272 с.]
  20. 20,0 20,1 Psaltis D., Sideris A., Yamamura A.A. A Multilayered Neural Network Controller // IEEE Control Systems Magazine — 1988. — Vol. 8, Issue 2. — P. 17 — 21.Шаблон:Недоступная ссылка
  21. Шаблон:Cite web
  22. [Jordan M.I. and Rumelhart D.E. Forwardmodels: Supervised learning with a distal teacher // Cognitive Science — 1990. — Vol. 16. — P. 313—355.]
  23. 23,0 23,1 [Narendra K.S., Parthasarathy K.K. Identification and control of dynamical systems using neural networks // IEEE Transactions on Neural Networks. — 1990. — N 1. — P. 4 — 27.]
  24. Шаблон:Cite web
  25. А. Н. Чернодуб. Обучение нейроэмуляторов с использованием псевдорегуляризации для метода нейроуправления с эталонной моделью // Искусственный Интеллект. — 2012. — No. 4. — C. 602—614Шаблон:Недоступная ссылка
  26. 26,0 26,1 Шаблон:Cite web
  27. Шаблон:Cite web
  28. Widrow B., Plett G.L. Adaptive Inverse Control based on Linear and Nonlinear Adaptive Filtering // Proceedings of International Workshop on Neural Networks for Identification, Control, Robotics, and Signal/Image Processing — 21 23 Aug 1996, Venice, Italy. — P. 30 — 38.
  29. 29,0 29,1 Шаблон:Cite doi
  30. Шаблон:Cite doi
  31. Шаблон:Cite doi
  32. Шаблон:Cite doi
  33. Шаблон:Cite web
  34. Шаблон:Cite web
  35. Шаблон:Cite web
  36. Шаблон:Cite web
  37. Шаблон:Cite doi
  38. Шаблон:Cite doi