Составители:
Рубрика:
31
где X
k
- состояние объекта управления на k-м шаге,
U
k
- управляющее воздействие на k- шаге,
Q - функция потерь,
n - количество шагов.
Метод динамического программирования представляет собой следую-
щую последовательность действий:
1) управляемые переменные и соответствующие ограничения группиру-
ются по шагам, и многошаговый процесс принятия решений исследуется в оп-
ределенной последовательности;
2) любую многошаговую задачу можно решать двумя способами:
либо искать сразу все элементы
решения на всех m шагах, либо строить
оптимальное управление шаг за шагом, на каждом этапе оптимизируя только
один шаг. Второй способ оказывается проще первого, особенно при большом
числе шагов.
3) планируя многошаговую операцию, надо выбирать управление на ка-
ждом шаге с учетом всех его будущих последствий на еще предстоящих шагах.
Управление на i-
м шаге выбирается так, чтобы была максимальна сумма
выигрышей на всех оставшихся до конца шагах плюс данный.
4) среди всех шагов есть один, который может планироваться без учета
будущего. Это последний шаг.
Поэтому процесс динамического программирования разворачивается с
конца к началу: прежде всего планируется последний n - шаг.
Планируя последний шаг, нужно сделать
разные предположения о том,
чем закончился предпоследний (n-1) - шаг, и для каждого из этих предположе-
ний найти условное оптимальное управление на n-шаге. Затем можно оптими-
зировать управление на предпоследнем шаге (n-1). Сделаем предположения о
том, чем закончился предыдущий (n-2) шаг, и для каждого из этих предположе-
ний найдем такое управление на (n-1) шаге, при котором
выигрыш за последние
два шага максимален! Так мы найдем для каждого исхода (n-2) шага условное
оптимальное управление на (n-1) шаге и условный оптимальный выигрыш за
последние два шага и т.д., пока не дойдем до первого шага.
Теперь можно построить оптимальное управление
u и найти оптималь-
ный выигрыш
Q
n
.
Действительно: мы знаем в каком состоянии была управляемая система
Х
0
. Следовательно, можно выбрать оптимальное управление на первом шаге
U
1
. В результате этого управления состояние системы изменилось на некоторое
новое X
1
. Здесь тоже известно условное оптимальное управление U
2
, которое к
концу второго шага переводит систему в состояние X
2
и т.д.
31 где Xk - состояние объекта управления на k-м шаге, Uk - управляющее воздействие на k- шаге, Q - функция потерь, n - количество шагов. Метод динамического программирования представляет собой следую- щую последовательность действий: 1) управляемые переменные и соответствующие ограничения группиру- ются по шагам, и многошаговый процесс принятия решений исследуется в оп- ределенной последовательности; 2) любую многошаговую задачу можно решать двумя способами: либо искать сразу все элементы решения на всех m шагах, либо строить оптимальное управление шаг за шагом, на каждом этапе оптимизируя только один шаг. Второй способ оказывается проще первого, особенно при большом числе шагов. 3) планируя многошаговую операцию, надо выбирать управление на ка- ждом шаге с учетом всех его будущих последствий на еще предстоящих шагах. Управление на i-м шаге выбирается так, чтобы была максимальна сумма выигрышей на всех оставшихся до конца шагах плюс данный. 4) среди всех шагов есть один, который может планироваться без учета будущего. Это последний шаг. Поэтому процесс динамического программирования разворачивается с конца к началу: прежде всего планируется последний n - шаг. Планируя последний шаг, нужно сделать разные предположения о том, чем закончился предпоследний (n-1) - шаг, и для каждого из этих предположе- ний найти условное оптимальное управление на n-шаге. Затем можно оптими- зировать управление на предпоследнем шаге (n-1). Сделаем предположения о том, чем закончился предыдущий (n-2) шаг, и для каждого из этих предположе- ний найдем такое управление на (n-1) шаге, при котором выигрыш за последние два шага максимален! Так мы найдем для каждого исхода (n-2) шага условное оптимальное управление на (n-1) шаге и условный оптимальный выигрыш за последние два шага и т.д., пока не дойдем до первого шага. Теперь можно построить оптимальное управление u и найти оптималь- ный выигрыш Qn. Действительно: мы знаем в каком состоянии была управляемая система Х 0. Следовательно, можно выбрать оптимальное управление на первом шаге U1. В результате этого управления состояние системы изменилось на некоторое новое X1. Здесь тоже известно условное оптимальное управление U2, которое к концу второго шага переводит систему в состояние X2 и т.д.
Страницы
- « первая
- ‹ предыдущая
- …
- 28
- 29
- 30
- 31
- 32
- …
- следующая ›
- последняя »