Методы искусственного интеллекта для машинного перевода текстов. Роганов В.Р - 46 стр.

UptoLike

46
чения НС получил название процедуры обратного распространения ошибки.
Именно он будет рассмотрен в дальнейшем.
Согласно методу наименьших квадратов, минимизируемой целевой функ-
цией ошибки НС является величина:
Ew y d
jp
N
jp
jp
() ( )
,
()
,
,
=−
1
2
2
(15)
где
y
jp
N
,
()
реальное выходное состояние нейрона j выходного слоя N нейронной
сети при подаче на ее входы p-го образа;
d
jp
идеальное (желаемое) выходное состояние этого нейрона.
Суммирование ведется по всем нейронам выходного слоя и по всем обра-
батываемым сетью образам. Минимизация ведется методом градиентного спус-
ка, что означает подстройку весовых коэффициентов следующим образом:
Δw
E
w
ij
n
ij
()
=−
η
(16)
где w
ij
весовой коэффициент синаптической связи, соединяющей i-ый нейрон
слоя n-1 с j-ым нейроном слоя n,
η
коэффициент скорости обучения, 0<
η
<1.
E
w
E
y
dy
ds
s
w
ij j
j
j
j
ij
=⋅
(17)
где y
j
как и раньше, выход нейрона j,
s
j
взвешенная сумма его входных сигналов, то есть аргумент активацион-
ной функции.
Так как множитель dy
j
/ds
j
является производной этой функции по ее аргу-
менту, из этого следует, что производная активационной функция должна быть
определена на всей оси абсцисс. В связи с этим функция единичного скачка и
прочие активационные функции с неоднородностями не подходят для рассмат-
риваемых НС. В них применяются такие гладкие функции, как гиперболиче-
ский
тангенс или классический сигмоид с экспонентой. В случае гиперболиче-
ского тангенса
чения НС получил название процедуры обратного распространения ошибки.
Именно он будет рассмотрен в дальнейшем.
    Согласно методу наименьших квадратов, минимизируемой целевой функ-
цией ошибки НС является величина:
                                     1
                          E ( w) =     ∑
                                     2 j,p
                                           ( y (j ,Np) − d j , p ) 2        (15)

где y (j ,Np) – реальное выходное состояние нейрона j выходного слоя N нейронной

         сети при подаче на ее входы p-го образа;
    djp – идеальное (желаемое) выходное состояние этого нейрона.
    Суммирование ведется по всем нейронам выходного слоя и по всем обра-
батываемым сетью образам. Минимизация ведется методом градиентного спус-
ка, что означает подстройку весовых коэффициентов следующим образом:
                                                      ∂E
                                Δwij( n ) = −η ⋅                            (16)
                                                      ∂wij

где wij – весовой коэффициент синаптической связи, соединяющей i-ый нейрон
         слоя n-1 с j-ым нейроном слоя n,
    η – коэффициент скорости обучения, 0<η<1.

                     ∂E    ∂E dy j ∂s j
                         =    ⋅    ⋅                                        (17)
                     ∂wij ∂y j ds j ∂wij
где yj — как и раньше, выход нейрона j,
   sj – взвешенная сумма его входных сигналов, то есть аргумент активацион-
         ной функции.
    Так как множитель dyj/dsj является производной этой функции по ее аргу-
менту, из этого следует, что производная активационной функция должна быть
определена на всей оси абсцисс. В связи с этим функция единичного скачка и
прочие активационные функции с неоднородностями не подходят для рассмат-
риваемых НС. В них применяются такие гладкие функции, как гиперболиче-
ский тангенс или классический сигмоид с экспонентой. В случае гиперболиче-
ского тангенса


                                                                              46