Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 28 стр.

UptoLike

28
4. Определение нового решения
1
η
tttt
wwp
+
=+
rrr
и соответствующих
ему
(
)
(
)
(
)
,,
ttt
EwgwHw
+++
rr
и возврат к пункту 1.
3.2.1.1. Алгоритм наискорейшего спуска (АНС)
Если в разложении (3.2) ограничиться линейным приближением, то
для выполнения соотношения
(
)
(
)
1
tt
EwEw
+
<
rr
достаточно подобрать
()0
T
t
gwp
<
rrr
, чему однозначно удовлетворяет выбор
()
tt
pgw
=-
rrr
(3.3)
в методе наискорейшего спуска. Ограничение линейным приближением в АНС
не позволяет использовать информацию о кривизне
()
Ew
r
, что обусловливает
медленную сходимость метода (она остается линейной). Более того, вблизи точ-
ки решения, когда градиент принимает малые значения, процесс минимизации
()
Ew
r
резко замедляется. Несмотря на указанные недостатки, простота и не-
большие вычислительные затраты АНС сделали его одним из основных спосо-
бов обучения многослойных ИНС. Повысить эффективность АНС удается пу-
тем модификации (как правило, эвристической) выражения (3.3).
Достаточно удачной разновидностью АНС является метод обучения
с так называемым моментом, где приращение
(
)
1
η
ttttt
wpww
a
-
D=+-
rrrr
(3.4)
записывается с учетом коэффициента момента a Î [0,1]. Первое слагаемое
(3.4) соответствует обычному АНС, второе учитывает предыдущее изме-
нение весов и не зависит от величины
()
Ew
Ñ
r
. Влияние
(
)
1
α
tt
ww
-
-
rr
резко
возрастает на плоских участках
()
Ew
r
, а также вблизи точек минимума, где
значения градиента близки к нулю. Например, для плоских участков
()
Ew
r
,
где при постоянном
ηη
t
º
приращение весов
const
t
w
D
r
;
, можно записать
ηα
ttt
wpw
D=+D
rrr
, откуда
η
1
α
tt
wp
D=
-
rr
, что при a = 0,9 соответствует уско-
рению процесса обучения на порядок. Аналогично, вблизи локальных ми-
нимумов второе слагаемое (3.4) ввиду малости
t
p
r
начинает доминировать
над первым, приводя к увеличению
()
Ew
r
и даже к уходу из окрестности
данного локального минимума, что может быть использовано для целей
глобальной оптимизации. Однако для предотвращения нестабильности ал-
горитма временные возрастания
()
Ew
r
не должны превышать (4–5) %.
3.2.1.2. Алгоритм переменной метрики (АПМ)
В основе АПМ лежит ньютоновский алгоритм оптимизации с ис-
пользованием вторых производных оценки, то есть трех первых слагаемых
                                                        �    �    �
     4. Определение нового решения wt �1 � wt � ηt pt и соответствующих
        �         �
ему E � wt �1 � , g � wt �1 � , H � wt �1 � и возврат к пункту 1.
3.2.1.1. Алгоритм наискорейшего спуска (АНС)
         Если в разложении (3.2) ограничиться линейным приближением, то
                                         �       �
для выполнения соотношения E � wt �1 � � E � wt � достаточно подобрать
 � � �
g ( wt )T p � 0 , чему однозначно удовлетворяет выбор
                                 �      � �
                                 pt � � g ( wt )                         (3.3)

в методе наискорейшего спуска. Ограничение линейным приближением в АНС
                                                          �
не позволяет использовать информацию о кривизне E ( w) , что обусловливает
медленную сходимость метода (она остается линейной). Более того, вблизи точ-
ки решения, когда градиент принимает малые значения, процесс минимизации
    �
E ( w) резко замедляется. Несмотря на указанные недостатки, простота и не-
большие вычислительные затраты АНС сделали его одним из основных спосо-
бов обучения многослойных ИНС. Повысить эффективность АНС удается пу-
тем модификации (как правило, эвристической) выражения (3.3).
       Достаточно удачной разновидностью АНС является метод обучения
с так называемым моментом, где приращение
                            �       �        � �
                           �wt � ηt pt � � � wt � wt �1 �              (3.4)

записывается с учетом коэффициента момента � � [0,1]. Первое слагаемое
(3.4) соответствует обычному АНС, второе учитывает предыдущее изме-
                                                �               � �
нение весов и не зависит от величины �E ( w) . Влияние α � wt � wt �1 � резко
                                     �
возрастает на плоских участках E ( w) , а также вблизи точек минимума, где
                                                                           �
значения градиента близки к нулю. Например, для плоских участков E ( w) ,
                                                    �
где при постоянном ηt � η приращение весов �wt � const , можно записать
  �     �     �            �     η �
�wt � ηpt � α�wt , откуда �wt �       pt , что при � = 0,9 соответствует уско-
                                1� α
рению процесса обучения на порядок. Аналогично, вблизи локальных ми-
                                                    �
нимумов второе слагаемое (3.4) ввиду малости pt начинает доминировать
                                            �
над первым, приводя к увеличению E ( w) и даже к уходу из окрестности
данного локального минимума, что может быть использовано для целей
глобальной оптимизации. Однако для предотвращения нестабильности ал-
                                      �
горитма временные возрастания E ( w) не должны превышать (4–5) %.
3.2.1.2. Алгоритм переменной метрики (АПМ)
       В основе АПМ лежит ньютоновский алгоритм оптимизации с ис-
пользованием вторых производных оценки, то есть трех первых слагаемых

                                           28