Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 34 стр.

UptoLike

34
тестовой задачи, то однозначный ответ на вопрос, какой алгоритм считать аб-
солютно лучшим, дать невозможно.
В качестве возможного примера сравнения эффективности рассмотрен-
ных методов обучения в таблице 3.1 представлены результаты обучения много-
слойного персептрона со структурой 1–10–1, предназначенного для аппрокси-
мации одномерной функции на основе обучающей выборки из 41 элемента. Все
алгоритмы обучения были реализованы в пакете дополнений NNT MATLAB,
что послужило основой для получения объективных оценок. Видно, что наи-
большую эффективность продемонстрировал АЛМ, за ним идут АПМ (BFGS) и
АСГ. Наихудшие результаты (по всем параметрам) показал АНС, а эвристиче-
ский алгоритм RPROP в этом примере был сравним с АПМ и АСГ. Заметим, од-
нако, что на основании более общих тестов был сделан вывод, что доминирую-
щая роль АЛМ и АПМ снижается по мере увеличения размеров НС, и при числе
связей больше 10
3
наиболее эффективным становится АСГ.
Таблица 3.1
Обучение многослойного персептрона
Алгоритм Время, с
Кол-во
циклов
Кол-во операций,
(´10
-6
)
АНС с адаптируемым h
57,7 980 2,50
Сопряженных градиентов 19,2 89 0,75
АПМ типа BFGS 10,9 44 1,02
ЛевенбергаМарквардта 1,9 6 0,46
RPROP 13,0 185 0,56
3.2.4. Методы глобальной оптимизации
При обучении НС с нелинейными функциями активации даже при
решении относительно простых технических задач необходимо учитывать
возможность появления большого количества локальных минимумов целе-
вой функции. Например, если для одного нейрона с входным весом w
1
и
весом поляризатора w
0
при линейной функции активации график зависи-
мости
()
Ew
r
от w
0
, w
1
имеет вид выпуклой поверхности, единственный ми-
нимум которой легко определить при любых начальных условиях, то при
использовании в качестве функции активации гиперболического тангенса
форма
()
Ew
r
принципиально меняется, изобилуя плоскими участками и
множеством локальных минимумов. Увеличение размеров НС только ос-
ложняет проблему, поскольку число минимумов также возрастает, каждый
из которых представляет собой ловушку на пути к глобальному миниму-
му, в котором
()
Ew
r
принимает наименьшее значение.
Все рассмотренные до сих пор детерминированные методы обучения
являются локальными, поскольку ведут к одному из локальных минимумов
()
Ew
r
, лежащему в окрестности точки начала обучения. При этом оценить оп-
тимальность найденного решения можно лишь в тех случаях, когда значение
глобального минимума известно. Если локальное решение считается неудов-
тестовой задачи, то однозначный ответ на вопрос, какой алгоритм считать аб-
солютно лучшим, дать невозможно.
       В качестве возможного примера сравнения эффективности рассмотрен-
ных методов обучения в таблице 3.1 представлены результаты обучения много-
слойного персептрона со структурой 1–10–1, предназначенного для аппрокси-
мации одномерной функции на основе обучающей выборки из 41 элемента. Все
алгоритмы обучения были реализованы в пакете дополнений NNT MATLAB,
что послужило основой для получения объективных оценок. Видно, что наи-
большую эффективность продемонстрировал АЛМ, за ним идут АПМ (BFGS) и
АСГ. Наихудшие результаты (по всем параметрам) показал АНС, а эвристиче-
ский алгоритм RPROP в этом примере был сравним с АПМ и АСГ. Заметим, од-
нако, что на основании более общих тестов был сделан вывод, что доминирую-
щая роль АЛМ и АПМ снижается по мере увеличения размеров НС, и при числе
связей больше 103 наиболее эффективным становится АСГ.
                                                                Таблица 3.1
                   Обучение многослойного персептрона
                                               Кол-во   Кол-во операций,
          Алгоритм             Время, с
                                               циклов        (�10-6)
АНС с адаптируемым �             57,7           980           2,50
Сопряженных градиентов           19,2            89           0,75
АПМ типа BFGS                    10,9            44           1,02
Левенберга–Марквардта            1,9              6           0,46
RPROP                            13,0           185           0,56

3.2.4. Методы глобальной оптимизации
        При обучении НС с нелинейными функциями активации даже при
решении относительно простых технических задач необходимо учитывать
возможность появления большого количества локальных минимумов целе-
вой функции. Например, если для одного нейрона с входным весом w1 и
весом поляризатора w0 при линейной функции активации график зависи-
            �
мости E ( w) от w0, w1 имеет вид выпуклой поверхности, единственный ми-
нимум которой легко определить при любых начальных условиях, то при
использовании в качестве функции активации гиперболического тангенса
             �
форма E ( w) принципиально меняется, изобилуя плоскими участками и
множеством локальных минимумов. Увеличение размеров НС только ос-
ложняет проблему, поскольку число минимумов также возрастает, каждый
из которых представляет собой ловушку на пути к глобальному миниму-
                  �
му, в котором E ( w) принимает наименьшее значение.
        Все рассмотренные до сих пор детерминированные методы обучения
являются локальными, поскольку ведут к одному из локальных минимумов
    �
E ( w) , лежащему в окрестности точки начала обучения. При этом оценить оп-
тимальность найденного решения можно лишь в тех случаях, когда значение
глобального минимума известно. Если локальное решение считается неудов-
                                          34