Искусственные нейронные сети. Каширина И.Л. - 31 стр.

UptoLike

Составители: 

31
Алгоритм обучения Больцмана
Шаг 1. Определить переменную Т , представляющую искусственную темпера -
туру. Придать Т большое начальное значение.
Шаг 2. Подать на вход сети один из входных образов обучающей выборки и
вычислить реальный выход и значение функции ошибки сети (как в алгоритме
обратного распространения).
Шаг 3. Придать случайное изменение
ij
w
выбранному весу
ij
w и пересчитать
выход сети и изменение функции ошибки в соответствии со сделанным изме-
нением веса.
Шаг 4. Если функция ошибки уменьшилась, то сохранить изменение веса.
Если изменение веса приводит к увеличению функции ошибки, то вероят-
ность сохранения этого изменения вычисляется с помощью распределения
Больцмана :
T
w
ij
ij
ewP
=∆ )(
. Выбирается случайное число r из равномерного
распределения от нуля до единицы. Если )(
ij
wP
больше, чем r, то изменение
сохраняется, в противном случае величина веса возвращается к предыдущему
значению.
Шаг 5. Повторять шаги 3 и 4 для каждого из весов сети, постепенно уменьшая
температуру Т , пока не будет достигнуто допустимо низкое значение целевой
функции.
Шаг 6. Повторять шаги 2-5 для всех векторов обучающей выборки, (возмож -
но неоднократно), пока функция ошибки не станет допустимой для каждого
из них.
Замечание 1. На шаге 4 система может делать случайный шаг в направлении,
портящем функцию ошибки, позволяя ей тем самым вырываться из локальных
минимумов , где любой малый шаг увеличивает целевую функцию.
Замечание 2. В работах, посвященных больцмановскому обучению, показано, что
для достижения сходимости к глобальному минимуму скорость уменьшения ис -
кусственной температуры должна подчиняться закону:
)1ln(
0
N
T
T
N
+
= где N- но-
мер итерации обучения. Этот результат предсказывает очень медленную сходи-
мость процесса обучения, что является существенным недостатком данного мето-
да .
6.2. Обучение Коши
В этом методе распределение Больцмана заменяется на распределение Коши. Рас-
пределение Коши имеет, как показано на рис . 15, более высокую вероятность
больших шагов . В действительности распределение Коши имеет бесконечную
( неопределенную ) дисперсию. С помощью такого простого изменения макси-
мальная скорость уменьшения температуры становится обратно пропорциональ-
ной линейной величине , а не логарифму, как для алгоритма обучения Больцмана .
                                       31
                        Алгоритм обучения Больцмана

  Шаг 1. Определить переменную Т, представляющую искусственную темпера-
  туру. Придать Т большое начальное значение.
  Шаг 2. Подать на вход сети один из входных образов обучающей выборки и
  вычислить реальный выход и значение функции ошибки сети (как в алгоритме
  обратного распространения).
  Шаг 3. Придать случайное изменение ∆wij выбранному весу wij и пересчитать
  выход сети и изменение функции ошибки в соответствии со сделанным изме-
  нением веса.
   Шаг 4. Если функция ошибки уменьшилась, то сохранить изменение веса.
   Если изменение веса приводит к увеличению функции ошибки, то вероят-
   ность сохранения этого изменения вычисляется с помощью распределения
                          −∆wij

    Больцмана: P (∆wij ) =e T . Выбирается случайное число r из равномерного
    распределения от нуля до единицы. Если P( ∆wij ) больше, чем r, то изменение
    сохраняется, в противном случае величина веса возвращается к предыдущему
    значению.
    Шаг 5. Повторять шаги 3 и 4 для каждого из весов сети, постепенно уменьшая
    температуру Т, пока не будет достигнуто допустимо низкое значение целевой
    функции.
    Шаг 6. Повторять шаги 2-5 для всех векторов обучающей выборки, (возмож-
    но неоднократно), пока функция ошибки не станет допустимой для каждого
    из них.
Замечание 1. На шаге 4 система может делать случайный шаг в направлении,
портящем функцию ошибки, позволяя ей тем самым вырываться из локальных
минимумов, где любой малый шаг увеличивает целевую функцию.
Замечание 2. В работах, посвященных больцмановскому обучению, показано, что
для достижения сходимости к глобальному минимуму скорость уменьшения ис-
                                                                 T0
кусственной температуры должна подчиняться закону: TN =                где N- но-
                                                             ln(1 +N )
мер итерации обучения. Этот результат предсказывает очень медленную сходи-
мость процесса обучения, что является существенным недостатком данного мето-
да.
                              6.2. Обучение Коши

В этом методе распределение Больцмана заменяется на распределение Коши. Рас-
пределение Коши имеет, как показано на рис. 15, более высокую вероятность
больших шагов. В действительности распределение Коши имеет бесконечную
(неопределенную) дисперсию. С помощью такого простого изменения макси-
мальная скорость уменьшения температуры становится обратно пропорциональ-
ной линейной величине, а не логарифму, как для алгоритма обучения Больцмана.