最优控制理论与线性贝尔曼方程
控制理论旨在优化一系列行动,以实现未来的某个目标。它将智能体视为一个自动机,试图在未来一段时间内最大化预期奖励(或最小化成本)。下面我们来详细探讨控制理论的相关内容。
1. 控制理论基础
1.1 典型示例
- 运动控制 :以人类投掷长矛猎杀动物为例,投掷长矛需要执行一个运动程序,使手释放长矛时具有正确的速度和方向以击中目标。这个运动程序是一系列动作,其成本通常由两部分组成:执行运动程序收缩肌肉的能量消耗(路径成本),以及长矛是否能杀死动物、只是伤害它还是完全未击中(终端成本)。最优控制解决方案是一系列运动指令,以最小的体力消耗通过投掷长矛杀死动物。
- 觅食行为 :动物觅食时,会在短时间内探索环境以找到尽可能多的食物。在每个时间点,动物考虑在[t, t + T]时间段内预期遇到的食物。与运动控制示例不同,时间范围从当前时间向未来延伸,且成本仅包含路径贡献,没有终端成本。因此,动物在每个时间点面临相同的任务,但可能处于环境中的不同位置。最优控制解决方案u(x)与时间无关,它为环境中的每个位置x指定了动物应该移动的方向u。
1.2 随机控制问题的挑战
一般的随机控制问题难以求解,需要指数级的内存和计算时间。这是因为状态空间需要离散化,其维度的增加会导致状态空间呈指数级增大。计算期望值意味着需要访问所有状态,这需要进行指数级的求和。强化学习也会遇到同样的难题。
2. 离散时间控制
2.1 离散时间动态系统
考虑一个离散时间动
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



