ВУЗ:
Составители:
29
в разложении (3.2). Для достижения минимума
()
Ew
r
необходимо, чтобы
(
)
0»
+
t
tt
pd
pwdE
r
r
r
, то есть дифференцированием (3.2) условие оптимальности
можно получить в виде
(
)
(
)
0
ttt
gwHwp
+=
rrrr
с очевидным решением
( ) ( )
1
,
ttt
pHwgw
-
éù
=-
ëû
rrrr
(3.5)
однозначно указывающим направление, гарантирующее достижение на
данном шаге минимальной
()
Ew
r
.
Применение (3.5) требует положительной определенности
()
Hw
r
на каждом шаге, что в общем случае практически неосуществимо, по-
этому в известных реализациях алгоритма, как правило, вместо точного
()
Hw
r
используется его приближение
()
Gw
r
, при котором гессиан или
обратная ему величина модифицируется на величину некоторой поправ-
ки, вычис–ляемой по формулам Бройдена–Флетчера–Гольдфарба–
Шенно (BFGS – метод) или Дэвидона–Флетчера–Пауэлла (DFP – метод).
Если обозначить
( ) ( ) ( )
1
11
;;,
tttttttt
wwsgwgwrGwV
-
--
éù
-º-ºº
ëû
rrrrrrrr
то процесс
уточнения матрицы V можно описать рекуррентными зависимостями:
для BFGS – метода –
11
1
1,
TTTT
tttttttttt
tt
TTT
tttttt
rVrsssrVrs
VV
srsrsr
--
-
éù
=++-
êú
ëû
rrrrrrrr
rrrrrr
(3.6)
а для DFP – метода –
11
1
1
,
TT
tttttt
tt
TT
ttttt
ssVrrV
VV
srrVr
--
-
-
=+-
rrrr
rrrr
(3.7)
где в качестве начального значения обычно принимается V
0
= 1, а первая
итерация выполняется в соответствии с АНС. Показано, что обеспечение с
помощью (3.5), (3.6) положительной определенности гессиана на каждом
шаге итерации действительно гарантирует решение проблемы оптимиза-
ции, причем метод BFGS менее чувствителен к различным погрешностям
вычислительного процесса.
АПМ характеризуется более быстрой сходимостью, чем АНС, и именно
он в настоящее время считается одним из наиболее эффективных методов оп-
тимизации функций нескольких переменных, а следовательно, и обучения
ИНС. Его недостаток – это большие вычислительные затраты, связанные с не-
обходимостью расчета и хранения в памяти n
2
элементов гессиана в каждом
цикле, что при оптимизации функции с большим количеством переменных
может стать серьезной проблемой. По этой причине метод применяется для не
очень больших НС, имеющих не более тысячи взвешенных связей.
� в разложении (3.2). Для достижения минимума E ( w) необходимо, чтобы � � dE �wt � pt � � � 0 , то есть дифференцированием (3.2) условие оптимальности dpt � � � � можно получить в виде g � wt � � H � wt � pt � 0 с очевидным решением � � �1 � � pt � � �� H � wt � �� g � wt � , (3.5) однозначно указывающим направление, гарантирующее достижение на � данном шаге минимальной E ( w) . � Применение (3.5) требует положительной определенности H ( w) на каждом шаге, что в общем случае практически неосуществимо, по- этому в известных реализациях алгоритма, как правило, вместо точного � � H ( w) используется его приближение G ( w) , при котором гессиан или обратная ему величина модифицируется на величину некоторой поправ- ки, вычис–ляемой по формулам Бройдена–Флетчера–Гольдфарба– Шенно (BFGS – метод) или Дэвидона–Флетчера–Пауэлла (DFP – метод). � � � � � � � � �1 Если обозначить wt � wt �1 � st ; g � wt � � g � wt �1 � � rt ; ��G � wt � �� � Vt , то процесс уточнения матрицы V можно описать рекуррентными зависимостями: для BFGS – метода – � � �� �� �� � rt TVt �1rt � st stT st rt TVt �1rt stT Vt � Vt �1 � �1 � �T � � �T � � � � , (3.6) � st rt � st rt stT rt а для DFP – метода – �� �� st stT Vt �1rt rt TVt �1 Vt � Vt �1 � �T � � � T � , (3.7) st rt rt Vt �1rt где в качестве начального значения обычно принимается V0 = 1, а первая итерация выполняется в соответствии с АНС. Показано, что обеспечение с помощью (3.5), (3.6) положительной определенности гессиана на каждом шаге итерации действительно гарантирует решение проблемы оптимиза- ции, причем метод BFGS менее чувствителен к различным погрешностям вычислительного процесса. АПМ характеризуется более быстрой сходимостью, чем АНС, и именно он в настоящее время считается одним из наиболее эффективных методов оп- тимизации функций нескольких переменных, а следовательно, и обучения ИНС. Его недостаток – это большие вычислительные затраты, связанные с не- обходимостью расчета и хранения в памяти n2 элементов гессиана в каждом цикле, что при оптимизации функции с большим количеством переменных может стать серьезной проблемой. По этой причине метод применяется для не очень больших НС, имеющих не более тысячи взвешенных связей. 29
Страницы
- « первая
- ‹ предыдущая
- …
- 27
- 28
- 29
- 30
- 31
- …
- следующая ›
- последняя »