Нейросетевые структуры и технологии. Часть 1. Электрические и математические модели нейронов. НС прямого распространения. Клюкин В.И - 26 стр.

UptoLike

26
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о
представимости непрерывных функций нескольких переменных суперпозици-
ей непрерывных функций одной переменной, которая в 1987 году была пере-
ложена ХехтНильсеном для нейронных сетей: любая функция нескольких
переменных может быть представлена двухслойной НС с прямыми полными
связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог-
раниченными функциями активации (например, сигмоидальными) и М нейро-
нами выходного слоя с неизвестными функциями активации.
Из теоремы КолмогороваАрнольдаХехтНильсена (КАХН) следу-
ет, что для любой функции многих переменных существует отображающая
ее НС фиксированной размерности, при настройке (обучении) которой мо-
гут использоваться три степени свободы:
- область значений сигмоидальных функций активации нейронов
скрытого слоя;
- наклон сигмоид нейронов этого слоя;
- вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной
выборки с р элементами нет, однако можно использовать одно из наиболее
простых приближенных соотношений:
.
102
pp
NMKNM
--££-- (3.1)
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие
(при решении тех же задач) меньшие размерности матриц [W] нейронов
скрытых слоев, однако строгой методики построения таких НС пока нет.
3.2. Методы обучения нейронных сетей
Чтобы ИНС с предварительно выбранной начальной архитектурой мог-
ла эффективно функционировать, ее необходимо обучить, то есть определить
оптимальные значения величин связей w
ij
, обычно путем минимизации неко-
торого функционала качества (функции ошибки)
()
Ew
r
в процессе итерацион-
ной процедуры, где количество итераций t может быть весьма значительным (t
= 10
3
…10
8
). Функция ошибки
()
Ew
r
может быть произвольной, однако наибо-
лее часто используется ее представление в виде (2.6) или (2.24). После выбора
совокупности обучающих примеров и способа вычисления
()
Ew
r
обучение
ИНС превращается в задачу многомерной оптимизации, для решения которой
могут быть использованы следующие методы:
- локальной оптимизации с вычислением частных производных 1 и
2-го порядков (градиентные методы);
- глобальной (стохастической) оптимизации (методы случайного
поиска и алгоритмы искусственного отбора).
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о
представимости непрерывных функций нескольких переменных суперпозици-
ей непрерывных функций одной переменной, которая в 1987 году была пере-
ложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких
переменных может быть представлена двухслойной НС с прямыми полными
связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог-
раниченными функциями активации (например, сигмоидальными) и М нейро-
нами выходного слоя с неизвестными функциями активации.
       Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следу-
ет, что для любой функции многих переменных существует отображающая
ее НС фиксированной размерности, при настройке (обучении) которой мо-
гут использоваться три степени свободы:
      � область значений сигмоидальных функций активации нейронов
скрытого слоя;
      � наклон сигмоид нейронов этого слоя;
      � вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной
выборки с р элементами нет, однако можно использовать одно из наиболее
простых приближенных соотношений:
                         p              p
                           � N � M � K � � N � M.                       (3.1)
                        10              2
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие
(при решении тех же задач) меньшие размерности матриц [W] нейронов
скрытых слоев, однако строгой методики построения таких НС пока нет.
3.2. Методы обучения нейронных сетей
      Чтобы ИНС с предварительно выбранной начальной архитектурой мог-
ла эффективно функционировать, ее необходимо обучить, то есть определить
оптимальные значения величин связей wij, обычно путем минимизации неко-
                                                    �
торого функционала качества (функции ошибки) E ( w) в процессе итерацион-
ной процедуры, где количество итераций t может быть весьма значительным (t
                                 �
= 103…108). Функция ошибки E ( w) может быть произвольной, однако наибо-
лее часто используется ее представление в виде (2.6) или (2.24). После выбора
                                                                  �
совокупности обучающих примеров и способа вычисления E ( w) обучение
ИНС превращается в задачу многомерной оптимизации, для решения которой
могут быть использованы следующие методы:
      � локальной оптимизации с вычислением частных производных 1 и
2-го порядков (градиентные методы);
      � глобальной (стохастической) оптимизации (методы случайного
поиска и алгоритмы искусственного отбора).

                                        26