Искусственные нейронные сети. Каширина И.Л. - 21 стр.

UptoLike

Составители: 

21
Замечание 1. На шаге 2 векторы из обучающей последовательности лучше
предъявлять на вход в случайном порядке.
Замечание 2. Во многих случаях желательно наделять каждый нейрон обучаемым
смещением . Это позволяет сдвигать начало отсчета логистической функции, да -
вая эффект, аналогичный подстройке порога персептронного нейрона , и приводит
к ускорению процесса обучения. Эта возможность может быть легко введена в
обучающий алгоритм с помощью добавляемого к каждому нейрону веса, присое -
диненного к +1. Этот вес обучается так же, как и все остальные веса, за исключе-
нием того, что подаваемый на него сигнал всегда равен +1, а не выходу нейрона
предыдущего слоя .
Замечание 3. Количество входов и выходов сети, как правило, диктуется усло-
виями задачи, а размер скрытого слоя находят экспериментально. Обычно число
нейронов в нем составляет 30-50% от числа входов . Слишком большое количест-
во нейронов скрытого слоя приводит к тому, что сеть теряет способность к обоб -
щению (она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания). Если
число нейронов в скрытом слое слишком мало, сеть оказывается просто не в со-
стоянии обучиться.
Замечание 4. Выходы каждого нейрона сети лежат в диапазоне (0,1) области
значений логистической функции это надо учитывать при формировании обу-
чающей выборки. Если необходимо получить от сети бинарный выход , то, как
правило, вместо 0 используют 0.1, а вместо 1 - 0.9, так как границы интервала не -
достижимы.
Модификации алгоритма обратного распространения связаны с использова -
нием различных функций ошибки, других активационных функций , различных
процедур определения направления и величины шага .
Обратное распространение было использовано в широкой сфере приклад-
ных исследований . В частности фирма NEC в Японии использовала обратное рас-
пространение для визуального распознавания букв (в том числе рукописных),
причем точность превысила 99%. Достигнут впечатляющий успех с Net-Talk, сис -
темой , которая превращает печатный английский текст в высококачественную
речь. Магнитофонная запись процесса обучения сильно напоминает звуки ребенка
на разных этапах обучения речи. Но несмотря на многочисленные успешные
применения обратного распространения, оно не является панацеей . Больше всего
неприятностей приносит неопределенно долгий процесс обучения. В сложных за -
дачах для обучения сети могут потребоваться часы или даже дни , она может и во-
обще не обучиться. Неудачи в обучении часто возникают по причине попадания
сети в локальный минимум , что, к сожалению, является характерной особенно-
стью методов градиентного спуска . Исправить ситуацию в таком случае иногда
помогают небольшие случайные изменения весовых значений сети.
                                       21
Замечание 1. На шаге 2 векторы из обучающей последовательности лучше
предъявлять на вход в случайном порядке.
Замечание 2. Во многих случаях желательно наделять каждый нейрон обучаемым
смещением. Это позволяет сдвигать начало отсчета логистической функции, да-
вая эффект, аналогичный подстройке порога персептронного нейрона, и приводит
к ускорению процесса обучения. Эта возможность может быть легко введена в
обучающий алгоритм с помощью добавляемого к каждому нейрону веса, присое-
диненного к +1. Этот вес обучается так же, как и все остальные веса, за исключе-
нием того, что подаваемый на него сигнал всегда равен +1, а не выходу нейрона
предыдущего слоя.
Замечание 3. Количество входов и выходов сети, как правило, диктуется усло-
виями задачи, а размер скрытого слоя находят экспериментально. Обычно число
нейронов в нем составляет 30-50% от числа входов. Слишком большое количест-
во нейронов скрытого слоя приводит к тому, что сеть теряет способность к обоб-
щению (она просто досконально запоминает элементы обучающей выборки и не
реагирует на схожие образцы, что неприемлемо для задач распознавания). Если
число нейронов в скрытом слое слишком мало, сеть оказывается просто не в со-
стоянии обучиться.
Замечание 4. Выходы каждого нейрона сети лежат в диапазоне (0,1) –области
значений логистической функции – это надо учитывать при формировании обу-
чающей выборки. Если необходимо получить от сети бинарный выход, то, как
правило, вместо 0 используют 0.1, а вместо 1 - 0.9, так как границы интервала не-
достижимы.
      Модификации алгоритма обратного распространения связаны с использова-
нием различных функций ошибки, других активационных функций, различных
процедур определения направления и величины шага.
      Обратное распространение было использовано в широкой сфере приклад-
ных исследований. В частности фирма NEC в Японии использовала обратное рас-
пространение для визуального распознавания букв (в том числе рукописных),
причем точность превысила 99%. Достигнут впечатляющий успех с Net-Talk, сис-
темой, которая превращает печатный английский текст в высококачественную
речь. Магнитофонная запись процесса обучения сильно напоминает звуки ребенка
на разных этапах обучения речи. Но несмотря на многочисленные успешные
применения обратного распространения, оно не является панацеей. Больше всего
неприятностей приносит неопределенно долгий процесс обучения. В сложных за-
дачах для обучения сети могут потребоваться часы или даже дни, она может и во-
обще не обучиться. Неудачи в обучении часто возникают по причине попадания
сети в локальный минимум, что, к сожалению, является характерной особенно-
стью методов градиентного спуска. Исправить ситуацию в таком случае иногда
помогают небольшие случайные изменения весовых значений сети.