Искусственные нейронные сети. Каширина И.Л. - 19 стр.

UptoLike

Составители: 

19
где y
k
полученное реальное значение k-го выхода нейросети при подаче на нее
одного из входных образов обучающей выборки; d
k
требуемое (целевое ) значе-
ние k-го выхода для этого образа .
Обучение нейросети производится известным оптимизационным методом
градиентного спуска , т. е. на каждой итерации изменение веса производится по
формулам :
ij
N
ij
N
ij
w
E
ww
−=
+
α
1
,
jk
N
jk
N
jk
v
E
vv
−=
+
α
1
,
где
α
параметр, определяющий скорость обучения.
В качестве активационной функции в сети обратного распространения обычно
используется логистическая функция
s
e
sf
+
=
1
1
)( , где s взвешенная сумма
входов нейрона . Эта функция удобна для вычислений в градиентном методе, так
как имеет простую производную: ))(1)((
)1(
)('
2
sfsf
e
e
sf
s
s
−=
+
=
.
Функция ошибки в явном виде не содержит зависимости от весовых коэффициен-
тов V
jk
и
ij
w , поэтому для вычисления производных
jk
v
E
,
ij
w
E
воспользуемся
формулами дифференцирования сложной функции:
jk
k
k
k
kjk
v
s
s
y
y
E
v
E
=
,
где s
k
взвешенная сумма входных сигналов k - го нейрона выходного слоя . Обо-
значим
c
j
y
- значение выхода j-го нейрона скрытого слоя . Тогда
=
=
m
j
c
jjkk
yvs
1
и
c
j
jk
k
y
v
s
=
. Так как )(
kk
sfy
=
, то )1()(1)((
kkkk
k
k
yysfsf
s
y
=−=
. Наконец ,
kk
k
dy
y
E
−=
. Таким образом , получили выражение для производной :
c
jkkkk
jk
yyydy
v
E
)1()( −=
.
Выведем теперь формулу для производной
ij
w
E
. Аналогично запишем :
ij
j
j
c
j
c
j
ij
w
s
s
y
y
E
w
E
=
.
                                            19
где yk –полученное реальное значение k-го выхода нейросети при подаче на нее
одного из входных образов обучающей выборки; dk – требуемое (целевое) значе-
ние k-го выхода для этого образа.
      Обучение нейросети производится известным оптимизационным методом
градиентного спуска, т. е. на каждой итерации изменение веса производится по
формулам:
                                       ∂E                         ∂E
                      wijN +1 =wijN −α      , v Njk +1 =v Njk −α       ,
                                       ∂wij                      ∂v jk

 где α – параметр, определяющий скорость обучения.
 В качестве активационной функции в сети обратного распространения обычно
                                                    1
 используется логистическая функция f ( s ) =            , где s –взвешенная сумма
                                                1 +e −s
 входов нейрона. Эта функция удобна для вычислений в градиентном методе, так
                                             e −s
 как имеет простую производную: f ' ( s) =             = f ( s)(1 − f ( s)) .
                                          (1 +e −s ) 2

Функция ошибки в явном виде не содержит зависимости от весовых коэффициен-
                                                    ∂E    ∂E
тов Vjk и wij , поэтому для вычисления производных      ,     воспользуемся
                                                   ∂v jk ∂wij
формулами дифференцирования сложной функции:

                                     ∂E    ∂E ∂yk ∂sk
                                         =              ,
                                    ∂v jk ∂yk ∂sk ∂v jk

 где sk – взвешенная сумма входных сигналов k- го нейрона выходного слоя. Обо-
                                                                                   m
 значим y cj - значение выхода j-го нейрона скрытого слоя. Тогда sk =∑ v jk y cj и
                                                                                  j =1
 ∂sk                                      ∂yk
       =y cj . Так как yk = f ( sk ) , то     = f ( sk )(1 − f ( sk ) =y k (1 −yk ) . Наконец,
 ∂v jk                                    ∂sk
 ∂E
      = y k −d k . Таким образом, получили выражение для производной:
 ∂y k
                               ∂E
                                    =( yk −d k ) y k (1 −yk ) y cj .
                              ∂v jk
                                                   ∂E
 Выведем теперь формулу для производной                 . Аналогично запишем:
                                                   ∂wij
                                          ∂E ∂y j ∂s j
                                                  c
                                    ∂E
                                        =                .
                                    ∂wij ∂y cj ∂s j ∂wij