Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 27 стр.

UptoLike

27
Основным критерием для сравнения эффективности различных ме-
тодов обучения ИНС являются вычислительные затраты, то есть количест-
во циклов (время) плюс количество операций.
3.2.1. Градиентные методы
Согласно теории среди детерминированных методов оптимизации наи-
более эффективными считаются градиентные методы, связанные с разложе-
нием целевой функции
()
Ew
r
в ряд Тейлора в окрестности
p
r
решения
w
r
[ ]
3
1
2
T
T
EwpEwgwppHwpOh
+=+++
rrrrrrrrr
(3.2)
где
12
(),,,
T
n
EEE
gwE
www
éù
¶¶
=Ñ=
êú
¶¶
ëû
rr
K вектор градиента,
hp
º
r
, а симмет-
ричная квадратная матрица
()
Hw
r
производных 2-го порядка
22
111
22
1
()
n
nnn
EE
wwww
Hw
EE
wwww
éù
¶¶
êú
¶¶
êú
êú
=
êú
¶¶
êú
êú
¶¶
ëû
L
r
MM
L
называется гессианом.
Выражение (3.2) можно считать квадратичным приближением
()
Ew
r
в
ближайшей окрестности w. Точкой решения
p
w
r
будем считать точку, где
достигается минимум
()
Ew
r
с точностью O(h
3
), то есть
()0
p
gw
=
rr
, а гессиан
()
Hw
r
положительно определен.
В процессе нахождения минимума
()
Ew
r
направление поиска
p
r
и
шаг h подбираются таким образом, чтобы для каждой очередной точки
(
)
1
1
η
tttt
wtwwp
+
+º=+
rrrr
выполнялось условие
(
)
(
)
1
tt
EwEw
+
<
rr
. Поиск про-
должается, пока
(
)
gp
rr
не станет меньше наперед заданной погрешности
e, или не будет превышено максимальное время вычислений (количество
итераций). В соответствии с этим универсальный оптимизационный алго-
ритм обучения ИНС можно представить в следующем виде (считаем, что
начальное значение
00
t
ww
=
º
rr
известно):
1. Проверка оптимальности текущего значения
t
w
r
, если «ДА», то
«STOP», если «НЕТ», то переход к пункту 2.
2. Определение вектора направления оптимизации
t
p
r
для точки
t
w
.
3. Выбор шага h
t
в направлении
t
p
r
, при котором выполняется усло-
вие
(
)
(
)
1
tt
EwEw
+
<
.
     Основным критерием для сравнения эффективности различных ме-
тодов обучения ИНС являются вычислительные затраты, то есть количест-
во циклов (время) плюс количество операций.
3.2.1. Градиентные методы
       Согласно теории среди детерминированных методов оптимизации наи-
более эффективными считаются градиентные методы, связанные с разложе-
                          �                             �         �
нием целевой функции E ( w) в ряд Тейлора в окрестности p решения w

                   � �           �      � � T � 1�          � �
               E ( w � p ) � E ( w) � � g ( w) � p � pT H ( w) p � O (h3 ),      (3.2)
                                                    2
                                         T
    � �           � �E �E       �E �                          �
где g ( w) � �E � �    ,    ,�,     � – вектор градиента, h � p , а симмет-
                  � �w1 �w2     �wn �
                                 �
ричная квадратная матрица H ( w) производных 2-го порядка

         � �2E        �2E �
         � �w �w � �w �w �
    � �
             1   1     1   n �

H ( w) � � �            � � называется гессианом.
         � 2                  �
         � � E     �
                      �2E �
         � �wn �w1   �wn �wn ��
         �
                                                                                  �
Выражение (3.2) можно считать квадратичным приближением E ( w) в
                                                   �
ближайшей окрестности w. Точкой решения wp будем считать точку, где
                                 �                               � �
достигается минимум E ( w) с точностью O(h3), то есть g ( wp ) � 0 , а гессиан
     �
H ( w) – положительно определен.
                                                   �                                �
         В процессе нахождения минимума E ( w) направление поиска p и
шаг h подбираются таким образом, чтобы для каждой очередной точки
 �           �       �       �                          �             �
w � t � 1� � wt �1 � wt � ηt pt выполнялось условие E � wt �1 � � E � wt � . Поиск про-
                        � �
должается, пока g � p � не станет меньше наперед заданной погрешности
�, или не будет превышено максимальное время вычислений (количество
итераций). В соответствии с этим универсальный оптимизационный алго-
ритм обучения ИНС можно представить в следующем виде (считаем, что
                             � �
начальное значение wt �0 � w0 известно):
                                                      �
      1. Проверка оптимальности текущего значения wt , если «ДА», то
«STOP», если «НЕТ», то переход к пункту 2.
                                                        �
      2. Определение вектора направления оптимизации pt для точки wt .
                                         �
      3. Выбор шага �t в направлении pt , при котором выполняется усло-
вие E � wt �1 � � E � wt � .
                                               27