Нейросетевые технологии. Каширина И.Л. - 23 стр.

UptoLike

ВУЗ:

ВГУ | Воронеж

Составители:

Каширина И.Л.

Рубрика:

Информатика и информационные технологии

(она просто досконально запоминает элементы обучающей выборки и не

реагирует на схожие образцы, что неприемлемо для задач распознавания).

Если число нейронов в скрытом слое слишком мало, сеть оказывается про-

сто не в состоянии обучиться.

Замечание 4. В результате слишком слишком близкой подгонки может

возникнуть проблема

переобучения. Если данные в обучающей выборке

содержали шумы, то в результате переобучения сеть запоминает эти шу-

мы и утрачивает способность к обобщению. Для контроля за переобуче-

нием сети вся доступная исходная выборка должна быть разделена на два

множества – обучающее (75%≈ данных) и тестовое (25%

≈

данных).

При этом обучение прекращается в момент, когда ошибка на тесто-

вом множестве перестает убывать (даже если ошибка на обучающем мно-

жестве продолжает понижаться).

Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) –

области значений логистической функции – это надо учитывать при фор-

мировании обучающей выборки. Желательно, чтобы и входы сети принад-

лежали этому диапазону. Общей практикой при градиентном обучении яв-

ляется предварительная нормализация признаков:

ср

min

max min ско

:,либо : , 1,..., ,

jj j

xjn

xx x

−

===

−

где

min max ср ско

,,,

jjj

xxx – соответственно минимальное, максимальное, сред-

нее значения и среднеквадратичное отклонение признака x

Модификации алгоритма

Модификации алгоритма обратного распространения связаны с ис-

пользованием различных функций ошибки, других активационных функ-

ций, различных процедур определения направления и величины шага.

Если значения выходов большинства нейронов задолго до окончания

обучения становятся близки к асимптотическим значениям функции акти-

вации (для логистической функции это 0 и 1), то возникает так называе-

мый

паралич сети. Производная функции активации в этом случае близка

к 0 и весовые коэффициенты практически перестают изменяться. В итоге

обучение становится неприемлемо медленным. Простейшим усовершенст-

вованием метода градиентного спуска является введение т. н.

момента, ко-

гда влияние градиента на изменение весов накапливается со временем:

www Δ+=

, где

ij ij

αμ

−

∂

Δ=− +Δ

∂

В этом случае эффективный темп обучения увеличивается, причем суще-

ственно, если момент

μ ≅ 1.

(она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания).
Если число нейронов в скрытом слое слишком мало, сеть оказывается про-
сто не в состоянии обучиться.
Замечание 4. В результате слишком слишком близкой подгонки может
возникнуть проблема переобучения. Если данные в обучающей выборке
содержали шумы, то в результате переобучения сеть запоминает эти шу-
мы и утрачивает способность к обобщению. Для контроля за переобуче-
нием сети вся доступная исходная выборка должна быть разделена на два
множества  обучающее ( ≈ 75 % данных) и тестовое ( ≈ 25 % данных).
      При этом обучение прекращается в момент, когда ошибка на тесто-
вом множестве перестает убывать (даже если ошибка на обучающем мно-
жестве продолжает понижаться).
Замечание 5. Выходы каждого нейрона сети лежат в диапазоне (0,1) 
области значений логистической функции  это надо учитывать при фор-
мировании обучающей выборки. Желательно, чтобы и входы сети принад-
лежали этому диапазону. Общей практикой при градиентном обучении яв-
ляется предварительная нормализация признаков:

                     x j − xmin
                            j
                                             x j − xсрj
                x := j          , либо x : =
                                        j
                                                        , j =1,..., n,
                    xmax − xmin
                              j                   j
                                                xско

      j     j
где xmin , xmax , xсрj , xско
                           j
                               соответственно минимальное, максимальное, сред-
нее значения и среднеквадратичное отклонение признака xj.
Модификации алгоритма
      Модификации алгоритма обратного распространения связаны с ис-
пользованием различных функций ошибки, других активационных функ-
ций, различных процедур определения направления и величины шага.
      Если значения выходов большинства нейронов задолго до окончания
обучения становятся близки к асимптотическим значениям функции акти-
вации (для логистической функции это 0 и 1), то возникает так называе-
мый паралич сети. Производная функции активации в этом случае близка
к 0 и весовые коэффициенты практически перестают изменяться. В итоге
обучение становится неприемлемо медленным. Простейшим усовершенст-
вованием метода градиентного спуска является введение т. н. момента, ко-
гда влияние градиента на изменение весов накапливается со временем:
                                                     ∂E
             wijN +1 = wijN + ΔwijN , где ΔwijN = −α       + μΔwijN −1.
                                                     ∂ wij
В этом случае эффективный темп обучения увеличивается, причем суще-
ственно, если момент μ ≅ 1.
                                         23

Заказать работу

Вы здесь

Нейросетевые технологии. Каширина И.Л. - 23 стр.

UptoLike

ВУЗ:

Каширина И.Л.

Информатика и информационные технологии

Страницы