40、强化学习与降阶模型:理论、方法与应用

强化学习与降阶模型:理论、方法与应用

强化学习与最优非线性控制

强化学习在机器人和自动驾驶等领域有着广泛的应用,这些应用通常对安全性要求极高,并且存在物理约束。例如,自动驾驶汽车有望重塑现代交通和能源格局。

在最优非线性控制方面,强化学习与最优非线性控制有很大的重叠,历史上它们在相同的优化框架下并行发展。

汉密尔顿 - 雅可比 - 贝尔曼方程(HJB)

在最优控制中,目标是找到控制输入 $u(t)$,使动态系统 $\frac{d}{dt}x = f(x(t), u(t), t)$ 沿着轨迹 $x(t)$ 运行,从而最小化成本函数:
$J(x(t), u(t), t_0, t_f) = Q(x(t_f), t_f) + \int_{t_0}^{t_f} L(x(\tau), u(\tau)) d\tau$

给定初始状态 $x_0 = x(t_0)$,最优控制 $u(t)$ 会产生最优成本函数 $J$。我们可以定义值函数 $V(x, t_0, t_f)$ 来描述从位置 $x$ 开始,假设控制律最优时的总积分成本:
$V(x(t_0), t_0, t_f) = \min_{u(t)} J(x(t), u(t), t_0, t_f)$

HJB 方程建立了一个偏微分方程,值函数 $V(x(t), t, t_f)$ 在每个中间时间 $t \in [t_0, t_f]$ 都必须满足该方程:
$-\frac{\partial V}{\partial t} = \min_{u(t)} \left[ \left( \frac{\partial V}{\partial x} \right)^T f(x(t),

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值