ВУЗ:
Составители:
84
Существуют и другие методы ускорения обучения таких сетей (метод
вторых производных, изменение диапазона 0-1 входных значений на ±1/2 и др.).
С помощью этих методов удается сократить время обучения сети от 30 до 50%.
Проблема 2.
В процессе обучения сети значения весовых коэффициентов
могут стать очень большими. Следствием этого будет смещение рабочих точек
на сигмоидах в область насыщения, где значения выходной функции нейронов
очень велики, а значения производной этой функции – очень малы. Так как
посылаемая обратно ошибка и величина коррекции весов пропорциональна этой
производной, то процесс
обучения может практически замереть. Такое явление
получило название паралича сети. Избежать этого можно уменьшением
коэффициента скорости обучения, но при этом возрастает время обучения.
Проблема 3.
Сеть ОРО по существу использует разновидность метода
градиентного спуска по поверхности ошибки, непрерывно подстраивая веса в
направлении к минимуму ошибки. Поверхность ошибки сложной сети сильно
изрезана и состоит из холмов, долин, складок и оврагов в пространстве высокой
размерности. Сеть может попасть в локальный минимум (неглубокую долину),
в то время как
рядом есть более глубокий минимум. В точке локального
минимума все направления (так же как и в глобальном минимуме) ведут вверх,
и сеть не способна из него самостоятельно выбраться.
В таких случаях обычно выручают стохастические методы. Сеть
«выбивают» из ловушки локального минимума путем присвоения параметрам
сети случайных значений из заданного диапазона,
после чего продолжается
обычная процедура градиентного спуска.
Другой метод исключения попаданий в локальные минимумы заключается
в следующем. Как только значения весов стабилизируются, коэффициент
скорости обучения η кратковременно сильно увеличивают, чтобы начать
градиентный спуск с новой точки. Если повторение этой процедуры несколько
раз приводит сеть в одно и то же состояние, то
с большой долей уверенности
можно считать, что найден глобальный минимум, а не локальный. Применяют
также комбинации различных методов.
Проблема 4.
Важнейшим параметром, влияющим на скорость обучения
сети, является размер шага (коэффициент скорости обучения). Дело в том, что
доказательство сходимости процесса обучения для сети ОРО основано на
производных функции ошибки, т.е. бесконечно малых приращениях весов. Но
тогда и скорость обучения будет бесконечно малой, что, конечно, на практике
не приемлемо. Если
размер шага будет очень велик, то может возникнуть
паралич сети или постоянная неустойчивость. Поэтому η выбирают меньшим,
чем 1, но и не сильно малым, примерно 0,1. Причем в процессе обучения его
желательно постепенно уменьшать. В некоторых работах предложены
адаптивные алгоритмы автоматического выбора шага в процессе обучения.
Проблема 5.
Процесс обучения сети какому-либо множеству образов
желательно проводить так, чтобы сети предъявлялись все векторы обучающего
множества, прежде чем выполняется коррекция весов (режим «off-line»). Т.е.
Страницы
- « первая
- ‹ предыдущая
- …
- 82
- 83
- 84
- 85
- 86
- …
- следующая ›
- последняя »
