ВУЗ:
Составители:
Рубрика:
негативное направление градиента ошибки и соответственно сеть уменьшает ошибку. Во многих ситуа-
циях, входы, выходы и вычисляемые градиенты являются детерминистическими, однако, минимизация
осуществляется по случайному закону. И, как результат, большинство алгоритмов обучения с учителем
используют стохастическую минимизацию ошибки в многомерном пространстве весов.
Рассмотрим стандартный алгоритм обучения многослойных нейронных сетей на основе обратного
распространения ошибки (back-propagation).
Цель обучения состоит в определении всех весовых коэффициентов, при которых ошибка вычисле-
ний будет минимальной. Обучение сети осуществляется на основе множества пар "вход-выход". Каж-
дый пример обучения состоит из вектора X = [ x
1
, x
2
, ..., x
n1
] входных сигналов и вектора D = [d
1
, d
2
, ...,
d
n3
] желаемых результатов. Обучение состоит в определении всех весовых коэффициентов, таких, что
значение ошибки между желаемыми и действительными выходными сигналами будет минимальной
(близкой к 0).
Рассматриваемый метод использует пошаговый градиентный подход для минимизации функции
квадрата ошибки. Тогда локальная функция ошибки для p-го примера обучения формулируется как
∑∑
==
=−=
22
1
2
1
2
2
1
)(
2
1
n
j
jp
n
j
jpjpp
eydE ; (86)
Тогда общая функция ошибки имеет вид
∑∑∑
−==
pj
jpjp
p
p
ydEE ,)(
2
1
2
(87)
где d
jp
и y
jp
– желаемый и действительный выходные сигналы j-го выходного нейрона для p-го образца,
соответственно.
Подход, который используется нами, предполагает, что для каждого примера обучения синаптиче-
ские веса
s
ij
w
(s – число уровней сети) изменяются на величину
s
ij
w∆ пропорционально отрицательному
градиенту локальной функции Е
р
:
0; >η
∂
∂
η−=∆
s
ji
p
s
ji
w
E
w
, (88)
где η – параметр обучения (малое число).
Или в непрерывной форме
.0, >µ
∂
∂
µ−=
s
ji
p
s
ji
w
E
dt
dw
(89)
По этой процедуре минимизируется общая функция ошибки
∑
=
p
p
EE . Рассмотрим нахождение ре-
шения на примере двухслойной нейронной сети.
Определим синаптические веса
s
ij
w (s = 2) выходного уровня. Имеем
2
/
/2
2
ji
j
j
p
ji
p
ji
w
o
o
E
w
E
w
∂
∂
∂
∂
η−=
∂
∂
η−=∆
. (90)
При этом
∑
=
=
2
1
2/
n
i
ijij
hwo . (91)
Локальная ошибка, называемая "дельта", определяется как
/
2
/
2
//
2
)(
jp
pp
jp
jp
j
pj
jp
p
j
p
j
o
f
yd
o
f
e
o
e
e
E
o
E
∂
∂
−=
∂
∂
=
∂
∂
∂
∂
−=
∂
∂
=δ
. (92)
Общая формула для определения весов в выходном слое
ijji
hw
22
ηδ=∆ . (93)
Теперь определим синаптические веса в скрытом слое. Можем записать