ВУЗ:
Составители:
23
(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема
переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множества – обучающее (75%≈ данных) и тестовое (25%
≈
данных).
При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) –
области значений логистической функции – это надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:
ср
min
max min ско
:,либо : , 1,..., ,
jj
jj
j
jj j
xx
xx
x
xjn
xx x
−
−
===
−
где
min max ср ско
,,,
j
jjj
x
xxx – соответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака x
j
.
Модификации алгоритма
Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый
паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н.
момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
N
ij
N
ij
N
ij
www Δ+=
+1
, где
1
.
NN
ij ij
ij
E
ww
w
αμ
−
∂
Δ=− +Δ
∂
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент
μ ≅ 1.
(она просто досконально запоминает элементы обучающей выборки и не реагирует на схожие образцы, что неприемлемо для задач распознавания). Если число нейронов в скрытом слое слишком мало, сеть оказывается про- сто не в состоянии обучиться. Замечание 4. В результате слишком слишком близкой подгонки может возникнуть проблема переобучения. Если данные в обучающей выборке содержали шумы, то в результате переобучения сеть запоминает эти шу- мы и утрачивает способность к обобщению. Для контроля за переобуче- нием сети вся доступная исходная выборка должна быть разделена на два множества обучающее ( ≈ 75 % данных) и тестовое ( ≈ 25 % данных). При этом обучение прекращается в момент, когда ошибка на тесто- вом множестве перестает убывать (даже если ошибка на обучающем мно- жестве продолжает понижаться). Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) области значений логистической функции это надо учитывать при фор- мировании обучающей выборки. Желательно, чтобы и входы сети принад- лежали этому диапазону. Общей практикой при градиентном обучении яв- ляется предварительная нормализация признаков: x j − xmin j x j − xсрj x := j , либо x : = j , j =1,..., n, xmax − xmin j j xско j j где xmin , xmax , xсрj , xско j соответственно минимальное, максимальное, сред- нее значения и среднеквадратичное отклонение признака xj. Модификации алгоритма Модификации алгоритма обратного распространения связаны с ис- пользованием различных функций ошибки, других активационных функ- ций, различных процедур определения направления и величины шага. Если значения выходов большинства нейронов задолго до окончания обучения становятся близки к асимптотическим значениям функции акти- вации (для логистической функции это 0 и 1), то возникает так называе- мый паралич сети. Производная функции активации в этом случае близка к 0 и весовые коэффициенты практически перестают изменяться. В итоге обучение становится неприемлемо медленным. Простейшим усовершенст- вованием метода градиентного спуска является введение т. н. момента, ко- гда влияние градиента на изменение весов накапливается со временем: ∂E wijN +1 = wijN + ΔwijN , где ΔwijN = −α + μΔwijN −1. ∂ wij В этом случае эффективный темп обучения увеличивается, причем суще- ственно, если момент μ ≅ 1. 23
Страницы
- « первая
- ‹ предыдущая
- …
- 21
- 22
- 23
- 24
- 25
- …
- следующая ›
- последняя »