ВУЗ:
Составители:
31
Алгоритм обучения Больцмана
Шаг 1. Определить переменную Т , представляющую искусственную темпера -
туру. Придать Т большое начальное значение.
Шаг 2. Подать на вход сети один из входных образов обучающей выборки и
вычислить реальный выход и значение функции ошибки сети (как в алгоритме
обратного распространения).
Шаг 3. Придать случайное изменение
ij
w
∆
выбранному весу
ij
w и пересчитать
выход сети и изменение функции ошибки в соответствии со сделанным изме-
нением веса.
Шаг 4. Если функция ошибки уменьшилась, то сохранить изменение веса.
Если изменение веса приводит к увеличению функции ошибки, то вероят-
ность сохранения этого изменения вычисляется с помощью распределения
Больцмана :
T
w
ij
ij
ewP
∆
−
=∆ )(
. Выбирается случайное число r из равномерного
распределения от нуля до единицы. Если )(
ij
wP
∆
больше, чем r, то изменение
сохраняется, в противном случае величина веса возвращается к предыдущему
значению.
Шаг 5. Повторять шаги 3 и 4 для каждого из весов сети, постепенно уменьшая
температуру Т , пока не будет достигнуто допустимо низкое значение целевой
функции.
Шаг 6. Повторять шаги 2-5 для всех векторов обучающей выборки, (возмож -
но неоднократно), пока функция ошибки не станет допустимой для каждого
из них.
Замечание 1. На шаге 4 система может делать случайный шаг в направлении,
портящем функцию ошибки, позволяя ей тем самым вырываться из локальных
минимумов , где любой малый шаг увеличивает целевую функцию.
Замечание 2. В работах, посвященных больцмановскому обучению, показано, что
для достижения сходимости к глобальному минимуму скорость уменьшения ис -
кусственной температуры должна подчиняться закону:
)1ln(
0
N
T
T
N
+
= где N- но-
мер итерации обучения. Этот результат предсказывает очень медленную сходи-
мость процесса обучения, что является существенным недостатком данного мето-
да .
6.2. Обучение Коши
В этом методе распределение Больцмана заменяется на распределение Коши. Рас-
пределение Коши имеет, как показано на рис . 15, более высокую вероятность
больших шагов . В действительности распределение Коши имеет бесконечную
( неопределенную ) дисперсию. С помощью такого простого изменения макси-
мальная скорость уменьшения температуры становится обратно пропорциональ-
ной линейной величине , а не логарифму, как для алгоритма обучения Больцмана .
31 Алгоритм обучения Больцмана Шаг 1. Определить переменную Т, представляющую искусственную темпера- туру. Придать Т большое начальное значение. Шаг 2. Подать на вход сети один из входных образов обучающей выборки и вычислить реальный выход и значение функции ошибки сети (как в алгоритме обратного распространения). Шаг 3. Придать случайное изменение ∆wij выбранному весу wij и пересчитать выход сети и изменение функции ошибки в соответствии со сделанным изме- нением веса. Шаг 4. Если функция ошибки уменьшилась, то сохранить изменение веса. Если изменение веса приводит к увеличению функции ошибки, то вероят- ность сохранения этого изменения вычисляется с помощью распределения −∆wij Больцмана: P (∆wij ) =e T . Выбирается случайное число r из равномерного распределения от нуля до единицы. Если P( ∆wij ) больше, чем r, то изменение сохраняется, в противном случае величина веса возвращается к предыдущему значению. Шаг 5. Повторять шаги 3 и 4 для каждого из весов сети, постепенно уменьшая температуру Т, пока не будет достигнуто допустимо низкое значение целевой функции. Шаг 6. Повторять шаги 2-5 для всех векторов обучающей выборки, (возмож- но неоднократно), пока функция ошибки не станет допустимой для каждого из них. Замечание 1. На шаге 4 система может делать случайный шаг в направлении, портящем функцию ошибки, позволяя ей тем самым вырываться из локальных минимумов, где любой малый шаг увеличивает целевую функцию. Замечание 2. В работах, посвященных больцмановскому обучению, показано, что для достижения сходимости к глобальному минимуму скорость уменьшения ис- T0 кусственной температуры должна подчиняться закону: TN = где N- но- ln(1 +N ) мер итерации обучения. Этот результат предсказывает очень медленную сходи- мость процесса обучения, что является существенным недостатком данного мето- да. 6.2. Обучение Коши В этом методе распределение Больцмана заменяется на распределение Коши. Рас- пределение Коши имеет, как показано на рис. 15, более высокую вероятность больших шагов. В действительности распределение Коши имеет бесконечную (неопределенную) дисперсию. С помощью такого простого изменения макси- мальная скорость уменьшения температуры становится обратно пропорциональ- ной линейной величине, а не логарифму, как для алгоритма обучения Больцмана.
Страницы
- « первая
- ‹ предыдущая
- …
- 29
- 30
- 31
- 32
- 33
- …
- следующая ›
- последняя »