ВУЗ:
Составители:
26
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о
представимости непрерывных функций нескольких переменных суперпозици-
ей непрерывных функций одной переменной, которая в 1987 году была пере-
ложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких
переменных может быть представлена двухслойной НС с прямыми полными
связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог-
раниченными функциями активации (например, сигмоидальными) и М нейро-
нами выходного слоя с неизвестными функциями активации.
Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следу-
ет, что для любой функции многих переменных существует отображающая
ее НС фиксированной размерности, при настройке (обучении) которой мо-
гут использоваться три степени свободы:
- область значений сигмоидальных функций активации нейронов
скрытого слоя;
- наклон сигмоид нейронов этого слоя;
- вид функций активации нейронов выходного слоя.
Точной оценки числа нейронов К в скрытом слое для каждой конкретной
выборки с р элементами нет, однако можно использовать одно из наиболее
простых приближенных соотношений:
.
102
pp
NMKNM
--££-- (3.1)
Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие
(при решении тех же задач) меньшие размерности матриц [W] нейронов
скрытых слоев, однако строгой методики построения таких НС пока нет.
3.2. Методы обучения нейронных сетей
Чтобы ИНС с предварительно выбранной начальной архитектурой мог-
ла эффективно функционировать, ее необходимо обучить, то есть определить
оптимальные значения величин связей w
ij
, обычно путем минимизации неко-
торого функционала качества (функции ошибки)
()
Ew
r
в процессе итерацион-
ной процедуры, где количество итераций t может быть весьма значительным (t
= 10
3
…10
8
). Функция ошибки
()
Ew
r
может быть произвольной, однако наибо-
лее часто используется ее представление в виде (2.6) или (2.24). После выбора
совокупности обучающих примеров и способа вычисления
()
Ew
r
обучение
ИНС превращается в задачу многомерной оптимизации, для решения которой
могут быть использованы следующие методы:
- локальной оптимизации с вычислением частных производных 1 и
2-го порядков (градиентные методы);
- глобальной (стохастической) оптимизации (методы случайного
поиска и алгоритмы искусственного отбора).
А.Н. Колмогоровым и В.В. Арнольдом в 1957 году была доказана теорема о представимости непрерывных функций нескольких переменных суперпозици- ей непрерывных функций одной переменной, которая в 1987 году была пере- ложена Хехт–Нильсеном для нейронных сетей: любая функция нескольких переменных может быть представлена двухслойной НС с прямыми полными связями с N нейронами входного слоя, (2N+1) нейронами скрытого слоя с ог- раниченными функциями активации (например, сигмоидальными) и М нейро- нами выходного слоя с неизвестными функциями активации. Из теоремы Колмогорова–Арнольда–Хехт–Нильсена (КАХН) следу- ет, что для любой функции многих переменных существует отображающая ее НС фиксированной размерности, при настройке (обучении) которой мо- гут использоваться три степени свободы: � область значений сигмоидальных функций активации нейронов скрытого слоя; � наклон сигмоид нейронов этого слоя; � вид функций активации нейронов выходного слоя. Точной оценки числа нейронов К в скрытом слое для каждой конкретной выборки с р элементами нет, однако можно использовать одно из наиболее простых приближенных соотношений: p p � N � M � K � � N � M. (3.1) 10 2 Иногда целесообразно использовать НС с бóльшим числом слоев, имеющие (при решении тех же задач) меньшие размерности матриц [W] нейронов скрытых слоев, однако строгой методики построения таких НС пока нет. 3.2. Методы обучения нейронных сетей Чтобы ИНС с предварительно выбранной начальной архитектурой мог- ла эффективно функционировать, ее необходимо обучить, то есть определить оптимальные значения величин связей wij, обычно путем минимизации неко- � торого функционала качества (функции ошибки) E ( w) в процессе итерацион- ной процедуры, где количество итераций t может быть весьма значительным (t � = 103…108). Функция ошибки E ( w) может быть произвольной, однако наибо- лее часто используется ее представление в виде (2.6) или (2.24). После выбора � совокупности обучающих примеров и способа вычисления E ( w) обучение ИНС превращается в задачу многомерной оптимизации, для решения которой могут быть использованы следующие методы: � локальной оптимизации с вычислением частных производных 1 и 2-го порядков (градиентные методы); � глобальной (стохастической) оптимизации (методы случайного поиска и алгоритмы искусственного отбора). 26
Страницы
- « первая
- ‹ предыдущая
- …
- 24
- 25
- 26
- 27
- 28
- …
- следующая ›
- последняя »