Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 29 стр.

UptoLike

29
в разложении (3.2). Для достижения минимума
()
Ew
r
необходимо, чтобы
(
)
0»
+
t
tt
pd
pwdE
r
r
r
, то есть дифференцированием (3.2) условие оптимальности
можно получить в виде
(
(
0
ttt
gwHwp
+=
rrrr
с очевидным решением
( ) ( )
1
,
ttt
pHwgw
-
éù
=-
ëû
rrrr
(3.5)
однозначно указывающим направление, гарантирующее достижение на
данном шаге минимальной
()
Ew
r
.
Применение (3.5) требует положительной определенности
()
Hw
r
на каждом шаге, что в общем случае практически неосуществимо, по-
этому в известных реализациях алгоритма, как правило, вместо точного
()
Hw
r
используется его приближение
()
Gw
r
, при котором гессиан или
обратная ему величина модифицируется на величину некоторой поправ-
ки, вычисляемой по формулам БройденаФлетчераГольдфарба
Шенно (BFGS метод) или ДэвидонаФлетчераПауэлла (DFP метод).
Если обозначить
( ) ( ) ( )
1
11
;;,
tttttttt
wwsgwgwrGwV
-
--
éù
-º-ºº
ëû
rrrrrrrr
то процесс
уточнения матрицы V можно описать рекуррентными зависимостями:
для BFGS метода
11
1
1,
TTTT
tttttttttt
tt
TTT
tttttt
rVrsssrVrs
VV
srsrsr
--
-
éù
=++-
êú
ëû
rrrrrrrr
rrrrrr
(3.6)
а для DFP метода
11
1
1
,
TT
tttttt
tt
TT
ttttt
ssVrrV
VV
srrVr
--
-
-
=+-
rrrr
rrrr
(3.7)
где в качестве начального значения обычно принимается V
0
= 1, а первая
итерация выполняется в соответствии с АНС. Показано, что обеспечение с
помощью (3.5), (3.6) положительной определенности гессиана на каждом
шаге итерации действительно гарантирует решение проблемы оптимиза-
ции, причем метод BFGS менее чувствителен к различным погрешностям
вычислительного процесса.
АПМ характеризуется более быстрой сходимостью, чем АНС, и именно
он в настоящее время считается одним из наиболее эффективных методов оп-
тимизации функций нескольких переменных, а следовательно, и обучения
ИНС. Его недостаток это большие вычислительные затраты, связанные с не-
обходимостью расчета и хранения в памяти n
2
элементов гессиана в каждом
цикле, что при оптимизации функции с большим количеством переменных
может стать серьезной проблемой. По этой причине метод применяется для не
очень больших НС, имеющих не более тысячи взвешенных связей.
                                                        �
в разложении (3.2). Для достижения минимума E ( w) необходимо, чтобы
    � �
dE �wt � pt �
     �        � 0 , то есть дифференцированием (3.2) условие оптимальности
    dpt
                            � �      � �
можно получить в виде g � wt � � H � wt � pt � 0 с очевидным решением

                                  �             � �1 � �
                                  pt � � �� H � wt � �� g � wt � ,                        (3.5)

однозначно указывающим направление, гарантирующее достижение на
                                  �
данном шаге минимальной E ( w) .
                                                                                              �
      Применение (3.5) требует положительной определенности H ( w)
на каждом шаге, что в общем случае практически неосуществимо, по-
этому в известных реализациях алгоритма, как правило, вместо точного
    �                                                  �
H ( w) используется его приближение G ( w) , при котором гессиан или
обратная ему величина модифицируется на величину некоторой поправ-
ки, вычис–ляемой по формулам Бройдена–Флетчера–Гольдфарба–
Шенно (BFGS – метод) или Дэвидона–Флетчера–Пауэлла (DFP – метод).
                 � �              � �        � �           �            � �1
Если обозначить wt � wt �1 � st ; g � wt � � g � wt �1 � � rt ; ��G � wt � �� � Vt , то процесс
уточнения матрицы V можно описать рекуррентными зависимостями:
для BFGS – метода –
                                    �      � ��           ��           ��
                              � rt TVt �1rt � st stT st rt TVt �1rt stT
                 Vt � Vt �1 � �1 � �T � � �T � �                 � �        ,              (3.6)
                              �       st rt � st rt             stT rt
а для DFP – метода –
                                            ��          ��
                                            st stT Vt �1rt rt TVt �1
                               Vt � Vt �1 � �T � � � T � ,                                (3.7)
                                            st rt    rt Vt �1rt
где в качестве начального значения обычно принимается V0 = 1, а первая
итерация выполняется в соответствии с АНС. Показано, что обеспечение с
помощью (3.5), (3.6) положительной определенности гессиана на каждом
шаге итерации действительно гарантирует решение проблемы оптимиза-
ции, причем метод BFGS менее чувствителен к различным погрешностям
вычислительного процесса.
      АПМ характеризуется более быстрой сходимостью, чем АНС, и именно
он в настоящее время считается одним из наиболее эффективных методов оп-
тимизации функций нескольких переменных, а следовательно, и обучения
ИНС. Его недостаток – это большие вычислительные затраты, связанные с не-
обходимостью расчета и хранения в памяти n2 элементов гессиана в каждом
цикле, что при оптимизации функции с большим количеством переменных
может стать серьезной проблемой. По этой причине метод применяется для не
очень больших НС, имеющих не более тысячи взвешенных связей.
                                                    29