ВУЗ:
Составители:
34
тестовой задачи, то однозначный ответ на вопрос, какой алгоритм считать аб-
солютно лучшим, дать невозможно.
В качестве возможного примера сравнения эффективности рассмотрен-
ных методов обучения в таблице 3.1 представлены результаты обучения много-
слойного персептрона со структурой 1–10–1, предназначенного для аппрокси-
мации одномерной функции на основе обучающей выборки из 41 элемента. Все
алгоритмы обучения были реализованы в пакете дополнений NNT MATLAB,
что послужило основой для получения объективных оценок. Видно, что наи-
большую эффективность продемонстрировал АЛМ, за ним идут АПМ (BFGS) и
АСГ. Наихудшие результаты (по всем параметрам) показал АНС, а эвристиче-
ский алгоритм RPROP в этом примере был сравним с АПМ и АСГ. Заметим, од-
нако, что на основании более общих тестов был сделан вывод, что доминирую-
щая роль АЛМ и АПМ снижается по мере увеличения размеров НС, и при числе
связей больше 10
3
наиболее эффективным становится АСГ.
Таблица 3.1
Обучение многослойного персептрона
Алгоритм Время, с
Кол-во
циклов
Кол-во операций,
(´10
-6
)
АНС с адаптируемым h
57,7 980 2,50
Сопряженных градиентов 19,2 89 0,75
АПМ типа BFGS 10,9 44 1,02
Левенберга–Марквардта 1,9 6 0,46
RPROP 13,0 185 0,56
3.2.4. Методы глобальной оптимизации
При обучении НС с нелинейными функциями активации даже при
решении относительно простых технических задач необходимо учитывать
возможность появления большого количества локальных минимумов целе-
вой функции. Например, если для одного нейрона с входным весом w
1
и
весом поляризатора w
0
при линейной функции активации график зависи-
мости
()
Ew
r
от w
0
, w
1
имеет вид выпуклой поверхности, единственный ми-
нимум которой легко определить при любых начальных условиях, то при
использовании в качестве функции активации гиперболического тангенса
форма
()
Ew
r
принципиально меняется, изобилуя плоскими участками и
множеством локальных минимумов. Увеличение размеров НС только ос-
ложняет проблему, поскольку число минимумов также возрастает, каждый
из которых представляет собой ловушку на пути к глобальному миниму-
му, в котором
()
Ew
r
принимает наименьшее значение.
Все рассмотренные до сих пор детерминированные методы обучения
являются локальными, поскольку ведут к одному из локальных минимумов
()
Ew
r
, лежащему в окрестности точки начала обучения. При этом оценить оп-
тимальность найденного решения можно лишь в тех случаях, когда значение
глобального минимума известно. Если локальное решение считается неудов-
тестовой задачи, то однозначный ответ на вопрос, какой алгоритм считать аб- солютно лучшим, дать невозможно. В качестве возможного примера сравнения эффективности рассмотрен- ных методов обучения в таблице 3.1 представлены результаты обучения много- слойного персептрона со структурой 1–10–1, предназначенного для аппрокси- мации одномерной функции на основе обучающей выборки из 41 элемента. Все алгоритмы обучения были реализованы в пакете дополнений NNT MATLAB, что послужило основой для получения объективных оценок. Видно, что наи- большую эффективность продемонстрировал АЛМ, за ним идут АПМ (BFGS) и АСГ. Наихудшие результаты (по всем параметрам) показал АНС, а эвристиче- ский алгоритм RPROP в этом примере был сравним с АПМ и АСГ. Заметим, од- нако, что на основании более общих тестов был сделан вывод, что доминирую- щая роль АЛМ и АПМ снижается по мере увеличения размеров НС, и при числе связей больше 103 наиболее эффективным становится АСГ. Таблица 3.1 Обучение многослойного персептрона Кол-во Кол-во операций, Алгоритм Время, с циклов (�10-6) АНС с адаптируемым � 57,7 980 2,50 Сопряженных градиентов 19,2 89 0,75 АПМ типа BFGS 10,9 44 1,02 Левенберга–Марквардта 1,9 6 0,46 RPROP 13,0 185 0,56 3.2.4. Методы глобальной оптимизации При обучении НС с нелинейными функциями активации даже при решении относительно простых технических задач необходимо учитывать возможность появления большого количества локальных минимумов целе- вой функции. Например, если для одного нейрона с входным весом w1 и весом поляризатора w0 при линейной функции активации график зависи- � мости E ( w) от w0, w1 имеет вид выпуклой поверхности, единственный ми- нимум которой легко определить при любых начальных условиях, то при использовании в качестве функции активации гиперболического тангенса � форма E ( w) принципиально меняется, изобилуя плоскими участками и множеством локальных минимумов. Увеличение размеров НС только ос- ложняет проблему, поскольку число минимумов также возрастает, каждый из которых представляет собой ловушку на пути к глобальному миниму- � му, в котором E ( w) принимает наименьшее значение. Все рассмотренные до сих пор детерминированные методы обучения являются локальными, поскольку ведут к одному из локальных минимумов � E ( w) , лежащему в окрестности точки начала обучения. При этом оценить оп- тимальность найденного решения можно лишь в тех случаях, когда значение глобального минимума известно. Если локальное решение считается неудов- 34
Страницы
- « первая
- ‹ предыдущая
- …
- 32
- 33
- 34
- 35
- 36
- …
- следующая ›
- последняя »