Интеллектуальный анализ данных в менеджменте. Кричевский М.Л. - 15 стр.

UptoLike

Составители:

Рубрика:

Усиленное обучение

В сетях с супервизорным обучением предполагалось, что имеется

информация о правильных выходных значениях для каждого вход"

ного образа. Но в некоторых ситуациях доступна менее детальная

информация. В предельном случае может быть только один бит ин"

формации: выход правильный или неверный. В таких условиях ис"

пользуется процедура УО.

Последнее является формой СО, так как сеть получает некоторую

обратную связь из окружающей среды. Но эта обратная связь (сигнал

усиления, да/нет) служит лишь оценкой, но не инструкцией к поведе"

нию сети. УО иногда называют обучением с критиком в противополож"

ность обучению с учителем.

При использовании парадигмы УО полагают работу ИНС в опреде"

ленной внешней среде. Среда формирует входы в сеть, получает выходы

сети и затем определяет сигнал усиления r (рис. 1.5). Здесь есть не"

сколько проблем, зависящих от характера окружающей среды.

1. В самом простейшем случае сигнал усиления r всегда одинаков

для данной пары вход"выход. Таким образом, в этом случае имеется

конкретное отображение вход"выход, которому сеть должна обучить"

ся, или несколько таких отображений при наличии многих выходов

для одного входа. Кроме того, входные образы выбираются в случай"

ном порядке внешней средой без учета предыдущих выходов. Эта си"

туация отчасти напоминает случай СО.

2. Расширение предыдущего случая – это стохастическое окруже"

ние. Здесь отдельная пара вход"выход определяет только вероятность

положительного усиления. Эта вероятность является фиксирован"

ной для каждой пары вход"выход, а входная последовательность,

как и в предыдущем случае, не зависит от прошлой истории. Подоб"

Рис. 1.5