ВУЗ:
Составители:
28
4. Определение нового решения
1
η
tttt
wwp
+
=+
rrr
и соответствующих
ему
(
)
(
)
(
)
111
,,
ttt
EwgwHw
+++
rr
и возврат к пункту 1.
3.2.1.1. Алгоритм наискорейшего спуска (АНС)
Если в разложении (3.2) ограничиться линейным приближением, то
для выполнения соотношения
(
)
(
)
1
tt
EwEw
+
<
rr
достаточно подобрать
()0
T
t
gwp
<
rrr
, чему однозначно удовлетворяет выбор
()
tt
pgw
=-
rrr
(3.3)
в методе наискорейшего спуска. Ограничение линейным приближением в АНС
не позволяет использовать информацию о кривизне
()
Ew
r
, что обусловливает
медленную сходимость метода (она остается линейной). Более того, вблизи точ-
ки решения, когда градиент принимает малые значения, процесс минимизации
()
Ew
r
резко замедляется. Несмотря на указанные недостатки, простота и не-
большие вычислительные затраты АНС сделали его одним из основных спосо-
бов обучения многослойных ИНС. Повысить эффективность АНС удается пу-
тем модификации (как правило, эвристической) выражения (3.3).
Достаточно удачной разновидностью АНС является метод обучения
с так называемым моментом, где приращение
(
)
1
η
ttttt
wpww
a
-
D=+-
rrrr
(3.4)
записывается с учетом коэффициента момента a Î [0,1]. Первое слагаемое
(3.4) соответствует обычному АНС, второе учитывает предыдущее изме-
нение весов и не зависит от величины
()
Ew
Ñ
r
. Влияние
(
)
1
α
tt
ww
-
-
rr
резко
возрастает на плоских участках
()
Ew
r
, а также вблизи точек минимума, где
значения градиента близки к нулю. Например, для плоских участков
()
Ew
r
,
где при постоянном
ηη
t
º
приращение весов
const
t
w
D
r
;
, можно записать
ηα
ttt
wpw
D=+D
rrr
, откуда
η
1
α
tt
wp
D=
-
rr
, что при a = 0,9 соответствует уско-
рению процесса обучения на порядок. Аналогично, вблизи локальных ми-
нимумов второе слагаемое (3.4) ввиду малости
t
p
r
начинает доминировать
над первым, приводя к увеличению
()
Ew
r
и даже к уходу из окрестности
данного локального минимума, что может быть использовано для целей
глобальной оптимизации. Однако для предотвращения нестабильности ал-
горитма временные возрастания
()
Ew
r
не должны превышать (4–5) %.
3.2.1.2. Алгоритм переменной метрики (АПМ)
В основе АПМ лежит ньютоновский алгоритм оптимизации с ис-
пользованием вторых производных оценки, то есть трех первых слагаемых
� � � 4. Определение нового решения wt �1 � wt � ηt pt и соответствующих � � ему E � wt �1 � , g � wt �1 � , H � wt �1 � и возврат к пункту 1. 3.2.1.1. Алгоритм наискорейшего спуска (АНС) Если в разложении (3.2) ограничиться линейным приближением, то � � для выполнения соотношения E � wt �1 � � E � wt � достаточно подобрать � � � g ( wt )T p � 0 , чему однозначно удовлетворяет выбор � � � pt � � g ( wt ) (3.3) в методе наискорейшего спуска. Ограничение линейным приближением в АНС � не позволяет использовать информацию о кривизне E ( w) , что обусловливает медленную сходимость метода (она остается линейной). Более того, вблизи точ- ки решения, когда градиент принимает малые значения, процесс минимизации � E ( w) резко замедляется. Несмотря на указанные недостатки, простота и не- большие вычислительные затраты АНС сделали его одним из основных спосо- бов обучения многослойных ИНС. Повысить эффективность АНС удается пу- тем модификации (как правило, эвристической) выражения (3.3). Достаточно удачной разновидностью АНС является метод обучения с так называемым моментом, где приращение � � � � �wt � ηt pt � � � wt � wt �1 � (3.4) записывается с учетом коэффициента момента � � [0,1]. Первое слагаемое (3.4) соответствует обычному АНС, второе учитывает предыдущее изме- � � � нение весов и не зависит от величины �E ( w) . Влияние α � wt � wt �1 � резко � возрастает на плоских участках E ( w) , а также вблизи точек минимума, где � значения градиента близки к нулю. Например, для плоских участков E ( w) , � где при постоянном ηt � η приращение весов �wt � const , можно записать � � � � η � �wt � ηpt � α�wt , откуда �wt � pt , что при � = 0,9 соответствует уско- 1� α рению процесса обучения на порядок. Аналогично, вблизи локальных ми- � нимумов второе слагаемое (3.4) ввиду малости pt начинает доминировать � над первым, приводя к увеличению E ( w) и даже к уходу из окрестности данного локального минимума, что может быть использовано для целей глобальной оптимизации. Однако для предотвращения нестабильности ал- � горитма временные возрастания E ( w) не должны превышать (4–5) %. 3.2.1.2. Алгоритм переменной метрики (АПМ) В основе АПМ лежит ньютоновский алгоритм оптимизации с ис- пользованием вторых производных оценки, то есть трех первых слагаемых 28
Страницы
- « первая
- ‹ предыдущая
- …
- 26
- 27
- 28
- 29
- 30
- …
- следующая ›
- последняя »