Методы искусственного интеллекта для машинного перевода текстов. Роганов В.Р - 47 стр.

UptoLike

47
dy
ds
s=−1
2
(18)
Третий множитель s
j
/w
ij
, очевидно, равен выходу нейрона предыдущего
слоя y
i
(n-1)
.
Что касается первого множителя в (17), он легко раскладывается следую-
щим образом[2]:
E
y
E
y
dy
ds
s
y
E
y
dy
ds
w
jk
k
k
k
j
k
k
k
k
k
jk
n
=⋅=
∑∑
+()1
(19)
где суммирование по k выполняется среди нейронов слоя n+1.
Введя новую переменную
δ
j
n
j
j
j
E
y
dy
ds
()
=⋅
, (20)
мы получим рекурсивную формулу для расчетов величин
δ
j
(n)
слоя n из величин
δ
k
(n+1)
более старшего слоя n+1.
δδ
j
n
k
n
jk
n
k
j
j
w
dy
ds
() () ()
=⋅
++
11
(21)
Для выходного же слоя
δ
l
N
l
N
l
l
l
yd
dy
ds
() ()
()=−
(22)
Теперь мы можем записать (16) в раскрытом виде:
Δwy
ij
n
j
n
i
n() () ( )
=−
ηδ
1
(23)
Иногда для придания процессу коррекции весов некоторой инерционно-
сти, сглаживающей резкие скачки при перемещении по поверхности целевой
функции, (23) дополняется значением изменения веса на предыдущей итерации
ΔΔwt wt y
ij
n
ij
n
j
n
i
n() () () ( )
() ( ( ) ( ) )= −+−
ημ μδ
11
1
(24)
где
μ
коэффициент инерционности,
t номер текущей итерации.
                                    dy
                                       = 1 − s2                                                          (18)
                                    ds
      Третий множитель ∂sj/∂wij, очевидно, равен выходу нейрона предыдущего
слоя yi(n-1).
      Что касается первого множителя в (17), он легко раскладывается следую-
щим образом[2]:

                ∂E      ∂E dy k ∂sk          ∂E dy k ( n+1)
                     =∑      ⋅     ⋅      =∑      ⋅     ⋅w jk                                            (19)
                ∂y j  k ∂y k   dsk   ∂y j  k ∂y k   dsk

где суммирование по k выполняется среди нейронов слоя n+1.
      Введя новую переменную

                                                      ∂E dy j
                                          δ (jn ) =       ⋅
                                                      ∂y j ds j ,                                        (20)

мы получим рекурсивную формулу для расчетов величин δj(n) слоя n из величин
δk(n+1) более старшего слоя n+1.

                                  ⎡                            ⎤ dy
                       δ (jn ) = ⎢∑ δ (kn+1) ⋅ w (jkn+1) ⎥ ⋅ j                                           (21)
                                  ⎣   k                     ds ⎦         j

Для выходного же слоя

                                                         dyl
                      δ (l N ) = ( yl( N ) − d l ) ⋅                                                     (22)
                                                         dsl
      Теперь мы можем записать (16) в раскрытом виде:

                           Δwij( n ) = −η ⋅ δ (jn ) ⋅ yi( n−1)                                           (23)

      Иногда для придания процессу коррекции весов некоторой инерционно-
сти, сглаживающей резкие скачки при перемещении по поверхности целевой
функции, (23) дополняется значением изменения веса на предыдущей итерации
                       Δwij( n ) (t ) = −η ⋅ ( μ ⋅ Δwij( n ) (t − 1) + (1 − μ ) ⋅ δ (jn ) ⋅ yi( n−1) )   (24)

где μ – коэффициент инерционности,
    t – номер текущей итерации.

                                                                                                          47