вых управлений Un и соответствующей траектории в пространстве
формальных параметров имеет вид:
V = V0(X0, U0) + V1(X1, U1) + … + VN — 1(XN- 1, UN — 1) + VN(XN) .
Критерий V принято называть полным выигрышем, а входящие
в него слагаемые — шаговыми выигрышами. В задаче требуется
найти последовательность шаговых управленийUn и траекторию,
которым соответствует максимальный из возможных полных вы-
игрышей. По своему существу полный выигрыш V — мера каче-
ства управления процессом в целом. Шаговые выигрыши, хотя и
входят в меру качества управления процессом в целом, но в общем
случае не являются мерами качества управления на соответствую-
щих им шагах, поскольку метод предназначен для оптимизации
процесса управления в целом, а эффектные шаговые управления с
большим шаговым выигрышем, но лежащие вне оптимальной
траектории, интереса не представляют. Структура метода не
запрещает при необходимости на каждом шаге употреблять крите-
рий определения шагового выигрыша Vn, отличный от критериев,
принятых на других шагах. Кроме того, критерий оптимальности
может быть построен и как произведение шаговых выигрышей, ко-
торые однако в этом случае не должны принимать отрицательных
значений.
С индексом n — указателем-определителем множеств возмож-
ных векторов состояния — в реальных задачах может быть связан
некий изменяющийся параметр, например: время, пройденный
путь, уровень мощности, мера расходования некоего ресурса и т.п.
То есть метод применим не только для оптимизации управления
процессами, длящимися во времени, но и к задачам оптимизации
многовариантного одномоментного или нечувствительного ко вре-
мени решения, если такого рода «безвременные», «непроцессные»
задачи допускают их многошаговую интерпретацию.
348
Глава 6. Достаточно общая теория управления (в крат-
ком изложении)
Теперь обратимся к рис. 1 — рис. 3, повторяющим взаимно
связанные рис. 40, 41, 42 из курса теории автоматического управ-
ления П. де Ла Барьера, хотя в нём они иначе озаглавлены.
На рис. 1 показаны начальное состояние системы — «0» и
множества её возможных последующих состояний — «1», «2», «3»,
а также возможные переходы из каждого возможного состояния в
другие возможные состояния. Всё это вместе похоже на карту на-
стольной детской игры, по которой перемещаются фишки: каждо-
му переходу-шагу соответствует свой шаговый выигрыш, а в за-
вершающем процесс третьем множестве — каждому из состояний
системы придана его оценка, помещенная в прямоугольнике.
Принципиальное отличие от игры в том, что гадание о выборе
пути, употребляемое в детской игре, на основе бросания костей
либо вращения волчка и т.п., в реальном управлении недопустимо,
поскольку это — передача целесообразного управления тем силам,
которые способны управлять выпадением костей, вращением волч-
ка и т.п., т.е. тем, для кого избранный в игре «генератор случайно-
стей» — достаточно эффективно (по отношению к их целям)
управляемое устройство.
РИС. 1. К СУЩЕСТВУ МЕТОДА ДИНАМИЧЕСКОГО ПРОГРАММИРОВАНИЯ.
МАТРИЦА ВОЗМОЖНОСТЕЙ.
349
Основы социологии
Если выбирать оптимальное управление на первом шаге, то
необходимо предвидеть все его последствия на последующих ша-
гах. Поэтому описание алгоритма метода динамического програм-
мирования часто начинают с описания выбора управления на по-
следнем шаге, ведущем в одно из завершающих процесс состоя-
ний. При этом ссылаются на «педагогическую практику», которая
свидетельствует, что аргументация при описании алгоритма от за-
вершающего состояния к начальному состоянию легче восприни-
мается, поскольку опирается на как бы уже сложившиеся к началу
рассматриваемого шага условия, в то время как возможные завер-
шения процесса также определены.
В соответ-
ствии с этим на
рис. 2 анализиру-
ются возможные
переходы в завер-
шающее мно-
жество состояний
«3» из каждого
возможного со-
стояния в ему
предшествующем
множестве состо-
яний «2», будто
бы весь предше-
ствующий путь
уже пройден и