ВУЗ:
Составители:
26
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о
представимости непрерывных функций нескольких переменных суперпозици-
ей непрерывных функций одной переменной, которая в 1987 году была пере-
ложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких
переменных может быть представлена двухслойной НС с прямыми полными
связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог-
раниченными функциями активации (например, сигмоидальными) и М нейро-
нами выходного слоя с неизвестными функциями активации.
Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следу-
ет, что для любой функции многих переменных существует отображающая
ее НС фиксированной размерности, при настройке (обучении) которой мо-
гут использоваться три степени свободы:
- область значений сигмоидальных функций активации нейронов
скрытого слоя;
- наклон сигмоид нейронов этого слоя;
- вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной
выборки с р элементами нет, однако можно использовать одно из наиболее
простых приближенных соотношений:
.
102
pp
NMKNM
--££-- (3.1)
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие
(при решении тех же задач) меньшие размерности матриц [W] нейронов
скрытых слоев, однако строгой методики построения таких НС пока нет.
3.2. Методы обучения нейронных сетей
Чтобы ИНС с предварительно выбранной начальной архитектурой мог-
ла эффективно функционировать, ее необходимо обучить, то есть определить
оптимальные значения величин связей w
ij
, обычно путем минимизации неко-
торого функционала качества (функции ошибки)
()
Ew
r
в процессе итерацион-
ной процедуры, где количество итераций t может быть весьма значительным (t
= 10
3
…10
8
). Функция ошибки
()
Ew
r
может быть произвольной, однако наибо-
лее часто используется ее представление в виде (2.6) или (2.24). После выбора
совокупности обучающих примеров и способа вычисления
()
Ew
r
обучение
ИНС превращается в задачу многомерной оптимизации, для решения которой
могут быть использованы следующие методы:
- локальной оптимизации с вычислением частных производных 1 и
2-го порядков (градиентные методы);
- глобальной (стохастической) оптимизации (методы случайного
поиска и алгоритмы искусственного отбора).
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о
представимости непрерывных функций нескольких переменных суперпозици-
ей непрерывных функций одной переменной, которая в 1987 году была пере-
ложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких
переменных может быть представлена двухслойной НС с прямыми полными
связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог-
раниченными функциями активации (например, сигмоидальными) и М нейро-
нами выходного слоя с неизвестными функциями активации.
Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следу-
ет, что для любой функции многих переменных существует отображающая
ее НС фиксированной размерности, при настройке (обучении) которой мо-
гут использоваться три степени свободы:
� область значений сигмоидальных функций активации нейронов
скрытого слоя;
� наклон сигмоид нейронов этого слоя;
� вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной
выборки с р элементами нет, однако можно использовать одно из наиболее
простых приближенных соотношений:
p p
� N � M � K � � N � M. (3.1)
10 2
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие
(при решении тех же задач) меньшие размерности матриц [W] нейронов
скрытых слоев, однако строгой методики построения таких НС пока нет.
3.2. Методы обучения нейронных сетей
Чтобы ИНС с предварительно выбранной начальной архитектурой мог-
ла эффективно функционировать, ее необходимо обучить, то есть определить
оптимальные значения величин связей wij, обычно путем минимизации неко-
�
торого функционала качества (функции ошибки) E ( w) в процессе итерацион-
ной процедуры, где количество итераций t может быть весьма значительным (t
�
= 103…108). Функция ошибки E ( w) может быть произвольной, однако наибо-
лее часто используется ее представление в виде (2.6) или (2.24). После выбора
�
совокупности обучающих примеров и способа вычисления E ( w) обучение
ИНС превращается в задачу многомерной оптимизации, для решения которой
могут быть использованы следующие методы:
� локальной оптимизации с вычислением частных производных 1 и
2-го порядков (градиентные методы);
� глобальной (стохастической) оптимизации (методы случайного
поиска и алгоритмы искусственного отбора).
26
Страницы
- « первая
- ‹ предыдущая
- …
- 24
- 25
- 26
- 27
- 28
- …
- следующая ›
- последняя »
