Нейросетевые технологии. Каширина И.Л. - 43 стр.

UptoLike

Составители: 

43
Шаг 6. Повторять шаги 2–5 для всех векторов обучающей выборки, (воз-
можно неоднократно), пока функция ошибки не станет допустимой для
каждого из них.
Замечание 1. На шаге 4 система может делать случайный шаг в направлении,
портящем функцию ошибки, позволяя ей тем самым вырываться из локаль-
ных минимумов, где любой малый шаг увеличивает целевую функцию.
Замечание 2. В работах, посвященных больцмановскому обучению, пока-
зано, что для достижения сходимости к глобальному минимуму скорость
уменьшения искусственной температуры должна подчиняться закону:
)1ln(
0
N
T
T
N
+
=
где N – номер итерации обучения. Этот результат предска-
зывает очень медленную сходимость процесса обучения, что является су-
щественным недостатком данного метода.
6.2. Обучение Коши
В этом методе распределение Больцмана заменяется на распределе-
ние Коши. Распределение Коши имеет, как показано на рис. 15, более вы-
сокую вероятность больших шагов. В действительности распределение
Коши имеет бесконечную (неопределенную) дисперсию. С помощью тако-
го простого изменения максимальная скорость уменьшения температуры
становится обратно пропорциональной линейной величине, а не логариф-
му, как
для алгоритма обучения Больцмана. Это резко уменьшает время
обучения. Эта связь может быть выражена следующим образом:
N
T
T
N
+
=
1
0
. Распределение Коши имеет вид:
22
() ,
N
ij
Nij
T
Pw
Tw
Δ=
где )(
ij
wP Δ есть вероятность принять изменение веса
ij
w
Δ
.
Рис. 23. Распределение Коши и распределение Больцмана
Несмотря на улучшение скорости обучения, даваемое распределени-
ем Коши по сравнению с распределением Больцмана, время сходимости
все еще может в 100 раз превышать время для алгоритма обратного рас-
пространения.
Шаг 6. Повторять шаги 2–5 для всех векторов обучающей выборки, (воз-
можно неоднократно), пока функция ошибки не станет допустимой для
каждого из них.
Замечание 1. На шаге 4 система может делать случайный шаг в направлении,
портящем функцию ошибки, позволяя ей тем самым вырываться из локаль-
ных минимумов, где любой малый шаг увеличивает целевую функцию.
Замечание 2. В работах, посвященных больцмановскому обучению, пока-
зано, что для достижения сходимости к глобальному минимуму скорость
уменьшения искусственной температуры должна подчиняться закону:
         T0
TN =            где N – номер итерации обучения. Этот результат предска-
     ln(1 + N )
зывает очень медленную сходимость процесса обучения, что является су-
щественным недостатком данного метода.

                          6.2. Обучение Коши
      В этом методе распределение Больцмана заменяется на распределе-
ние Коши. Распределение Коши имеет, как показано на рис. 15, более вы-
сокую вероятность больших шагов. В действительности распределение
Коши имеет бесконечную (неопределенную) дисперсию. С помощью тако-
го простого изменения максимальная скорость уменьшения температуры
становится обратно пропорциональной линейной величине, а не логариф-
му, как для алгоритма обучения Больцмана. Это резко уменьшает время
обучения. Эта связь может быть выражена следующим образом:
      T                                                         T
TN = 0 .       Распределение Коши имеет вид: P ( Δwij ) = 2 N 2 ,
     1+ N                                                    TN + Δwij
где P(Δwij ) есть вероятность принять изменение веса Δwij .




         Рис. 23. Распределение Коши и распределение Больцмана
     Несмотря на улучшение скорости обучения, даваемое распределени-
ем Коши по сравнению с распределением Больцмана, время сходимости
все еще может в 100 раз превышать время для алгоритма обратного рас-
пространения.

                                    43