17、最优控制理论与线性贝尔曼方程

最优控制理论与线性贝尔曼方程

控制理论旨在优化一系列行动,以实现未来的某个目标。它将智能体视为一个自动机,试图在未来一段时间内最大化预期奖励(或最小化成本)。下面我们来详细探讨控制理论的相关内容。

1. 控制理论基础

1.1 典型示例

  • 运动控制 :以人类投掷长矛猎杀动物为例,投掷长矛需要执行一个运动程序,使手释放长矛时具有正确的速度和方向以击中目标。这个运动程序是一系列动作,其成本通常由两部分组成:执行运动程序收缩肌肉的能量消耗(路径成本),以及长矛是否能杀死动物、只是伤害它还是完全未击中(终端成本)。最优控制解决方案是一系列运动指令,以最小的体力消耗通过投掷长矛杀死动物。
  • 觅食行为 :动物觅食时,会在短时间内探索环境以找到尽可能多的食物。在每个时间点,动物考虑在[t, t + T]时间段内预期遇到的食物。与运动控制示例不同,时间范围从当前时间向未来延伸,且成本仅包含路径贡献,没有终端成本。因此,动物在每个时间点面临相同的任务,但可能处于环境中的不同位置。最优控制解决方案u(x)与时间无关,它为环境中的每个位置x指定了动物应该移动的方向u。

1.2 随机控制问题的挑战

一般的随机控制问题难以求解,需要指数级的内存和计算时间。这是因为状态空间需要离散化,其维度的增加会导致状态空间呈指数级增大。计算期望值意味着需要访问所有状态,这需要进行指数级的求和。强化学习也会遇到同样的难题。

2. 离散时间控制

2.1 离散时间动态系统

考虑一个离散时间动

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值