Составители:
Рубрика:
15
Усиленное обучение
В сетях с супервизорным обучением предполагалось, что имеется
информация о правильных выходных значениях для каждого вход"
ного образа. Но в некоторых ситуациях доступна менее детальная
информация. В предельном случае может быть только один бит ин"
формации: выход правильный или неверный. В таких условиях ис"
пользуется процедура УО.
Последнее является формой СО, так как сеть получает некоторую
обратную связь из окружающей среды. Но эта обратная связь (сигнал
усиления, да/нет) служит лишь оценкой, но не инструкцией к поведе"
нию сети. УО иногда называют обучением с критиком в противополож"
ность обучению с учителем.
При использовании парадигмы УО полагают работу ИНС в опреде"
ленной внешней среде. Среда формирует входы в сеть, получает выходы
сети и затем определяет сигнал усиления r (рис. 1.5). Здесь есть не"
сколько проблем, зависящих от характера окружающей среды.
1. В самом простейшем случае сигнал усиления r всегда одинаков
для данной пары вход"выход. Таким образом, в этом случае имеется
конкретное отображение вход"выход, которому сеть должна обучить"
ся, или несколько таких отображений при наличии многих выходов
для одного входа. Кроме того, входные образы выбираются в случай"
ном порядке внешней средой без учета предыдущих выходов. Эта си"
туация отчасти напоминает случай СО.
2. Расширение предыдущего случая – это стохастическое окруже"
ние. Здесь отдельная пара вход"выход определяет только вероятность
положительного усиления. Эта вероятность является фиксирован"
ной для каждой пары вход"выход, а входная последовательность,
как и в предыдущем случае, не зависит от прошлой истории. Подоб"
Рис. 1.5
Страницы
- « первая
- ‹ предыдущая
- …
- 13
- 14
- 15
- 16
- 17
- …
- следующая ›
- последняя »