ВУЗ:
Составители:
23
(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема
переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множества – обучающее (75%≈ данных) и тестовое (25%
≈
данных).
При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) –
области значений логистической функции – это надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:
ср
min
max min ско
:,либо : , 1,..., ,
jj
jj
j
jj j
xx
xx
x
xjn
xx x
−
−
===
−
где
min max ср ско
,,,
j
jjj
x
xxx – соответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака x
j
.
Модификации алгоритма
Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый
паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н.
момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
N
ij
N
ij
N
ij
www Δ+=
+1
, где
1
.
NN
ij ij
ij
E
ww
w
αμ
−
∂
Δ=− +Δ
∂
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент
μ ≅ 1.
(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множества обучающее ( ≈ 75 % данных) и тестовое ( ≈ 25 % данных).
При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1)
области значений логистической функции это надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:
x j − xmin
j
x j − xсрj
x := j , либо x : =
j
, j =1,..., n,
xmax − xmin
j j
xско
j j
где xmin , xmax , xсрj , xско
j
соответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака xj.
Модификации алгоритма
Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н. момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
∂E
wijN +1 = wijN + ΔwijN , где ΔwijN = −α + μΔwijN −1.
∂ wij
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент μ ≅ 1.
23
Страницы
- « первая
- ‹ предыдущая
- …
- 21
- 22
- 23
- 24
- 25
- …
- следующая ›
- последняя »
