Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 30 стр.

UptoLike

30
3.2.1.3. Алгоритм ЛевенбергаМарквардта (АЛМ)
Как и АПМ, АЛМ относится к ньютоновским методам оптимизации с
заменой
()
Hw
r
приближенным
()
Gw
r
, рассчитываемым на основе имеющейся
информации о
()
rr
с учетом некоторого фактора регуляризации. Обозначая
( )
( )
( )
( )
( )
11
1
1
2
1
;,
n
pp
p
n
ee
ew
ww
ew
ewJw
ee
ew
ww
éù
¶¶
éù
êú
¶¶
êú
êú
êú
êú
ºº
êú
êú
¶¶
êú
êú
êú
ëû
êú
¶¶
ëû
r
L
r
rr
MM
M
r
L
(3.8)
где
(
)
(
)
iii
ewywd
º-
éù
ëû
rr
, вектор градиента
()
rr
и матрицу
()
Gw
r
можно
представить в виде
( ) ( ) ( )
( ) ( ) ( ) ( )
;
,
T
T
gwJwew
GwJwJwRw
=éù
ëû
=+éù
ëû
rrrrr
rrrr
(3.9)
где
()
Rw
r
компоненты
()
Hw
r
с высшими производными относительно
w
r
, ко-
торые в АЛМ аппроксимируются с помощью скалярного параметра Левенбер-
гаМарквардта
u
, изменяющегося в процессе оптимизации таким образом, что
( ) ( ) ( )
.
T
tttt
GwJwJw
u
éù
=
ëû
1
rrr
(3.10)
В начале обучения, когда значения
t
w
r
далеки от решения, использу-
ют
(
)
[
]
(
)
wJwJ
T
t
r
r
>>
u
, то есть
(
)
1
×
»
ti
wG
u
r
и
()
t
t
t
gw
p
u
=-
rr
r
, однако по мере
уменьшения погрешности
(
)
i
ew
r
первое слагаемое в (3.10) начинает играть
все более важную роль. Эффективность метода сильно зависит от выбора
u
t
. Существуют различные способы подбора этого параметра, однако наи-
более известна методика Д. Марквардта:
если
1t
t
EE
r
u
-
æö
£
ç÷
èø
, то
1
t
t
r
u
u
-
=
, где r>1 коэффициент уменьшения
u
;
если
1t
t
EE
r
u
-
æö
>
ç÷
èø
, а
(
)
1
tt
EE
u
-
<
, то
1
tt
uu
-
=
;
если
1t
t
EE
r
u
-
æö
>
ç÷
èø
и
(
)
1
tt
EE
u
-
>
, то
1
m
tt
r
uu
-
= до достижения
(
)
1
m
tt
ErE
u
-
£
.
3.2.1.3. Алгоритм Левенберга–Марквардта (АЛМ)
       Как и АПМ, АЛМ относится к ньютоновским методам оптимизации с
             �                   �
заменой H ( w) приближенным G ( w) , рассчитываемым на основе имеющейся
               � �
информации о g ( w) с учетом некоторого фактора регуляризации. Обозначая

                                           �                � �e1            �e1 �
                                    � e1 � w � �            � �w �
                                    �      �   �                             �wn �
                        � � � e2 � w � �                    � 1                   �
                        e � w� �                 ; J � w� � � �               � �,           (3.8)
                                    � � �                   �                     �
                                    �      � �              � �e p �         �e p �
                                    �e p � w � �            �� �w1           �wn ��
         �             �                                        � �                      �
где ei � w � � �� yi � w � � di �� , вектор градиента g ( w) и               матрицу G ( w) можно
представить в виде
                       � �              � T� �
                       g � w � � �� J � w � �� e � w � ;
                           �            � T         �        �         (3.9)
                       G � w � � �� J � w � �� J � w � � R � w � ,
       �                    �                                        �
где R( w) – компоненты H ( w) с высшими производными относительно w , ко-
торые в АЛМ аппроксимируются с помощью скалярного параметра Левенбер-
га–Марквардта �, изменяющегося в процессе оптимизации таким образом, что
                                  �             � T         �
                              G � wt � � �� J � wt � �� J � wt � � �t � 1.                  (3.10)
                                                       �
        В начале обучения, когда значения wt далеки от решения, использу-
                                                                     � �
                  � T �                    �                �        g ( wt )
ют � t �� �J �w�� J �w� , то есть G �wi � � � t � 1 и pt � �                  , однако по мере
                                                                       �t
                                     �
уменьшения погрешности ei � w � первое слагаемое в (3.10) начинает играть
все более важную роль. Эффективность метода сильно зависит от выбора
�t. Существуют различные способы подбора этого параметра, однако наи-
более известна методика Д. Марквардта:
                     �� �                �
        – если E � t �1 � � Et , то �t � t �1 , где r>1 – коэффициент уменьшения �;
                     � r �                 r
                     �� �
        – если E � t �1 � � Et , а E ��t �1 � � Et , то �t � �t �1 ;
                     � r �
                      �� �
        – если E � t �1 � � Et и E ��t �1 � � Et , то �t � �t �1r m до достижения
                      � r �
E ��t �1r m � � Et .

                                                       30