Нейросетевые технологии. Каширина И.Л. - 23 стр.

UptoLike

Составители: 

23
(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема
переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множестваобучающее (75% данных) и тестовое (25%
данных).
При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) –
области значений логистической функцииэто надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:
ср
min
max min ско
:,либо : , 1,..., ,
jj
jj
j
jj j
xx
xx
x
xjn
xx x
===
где
min max ср ско
,,,
j
jjj
x
xxxсоответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака x
j
.
Модификации алгоритма
Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый
паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н.
момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
N
ij
N
ij
N
ij
www Δ+=
+1
, где
1
.
NN
ij ij
ij
E
ww
w
αμ
Δ= +Δ
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент
μ 1.
(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множества – обучающее ( ≈ 75 % данных) и тестовое ( ≈ 25 % данных).
      При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) –
области значений логистической функции – это надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:

                     x j − xmin
                            j
                                             x j − xсрj
                x := j          , либо x : =
                                        j
                                                        , j =1,..., n,
                    xmax − xmin
                              j                   j
                                                xско

      j     j
где xmin , xmax , xсрj , xско
                           j
                              – соответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака xj.
Модификации алгоритма
      Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
      Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н. момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
                                                     ∂E
             wijN +1 = wijN + ΔwijN , где ΔwijN = −α       + μΔwijN −1.
                                                     ∂ wij
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент μ ≅ 1.
                                         23