强化学习与降阶模型:理论、方法与应用
强化学习与最优非线性控制
强化学习在机器人和自动驾驶等领域有着广泛的应用,这些应用通常对安全性要求极高,并且存在物理约束。例如,自动驾驶汽车有望重塑现代交通和能源格局。
在最优非线性控制方面,强化学习与最优非线性控制有很大的重叠,历史上它们在相同的优化框架下并行发展。
汉密尔顿 - 雅可比 - 贝尔曼方程(HJB)
在最优控制中,目标是找到控制输入 $u(t)$,使动态系统 $\frac{d}{dt}x = f(x(t), u(t), t)$ 沿着轨迹 $x(t)$ 运行,从而最小化成本函数:
$J(x(t), u(t), t_0, t_f) = Q(x(t_f), t_f) + \int_{t_0}^{t_f} L(x(\tau), u(\tau)) d\tau$
给定初始状态 $x_0 = x(t_0)$,最优控制 $u(t)$ 会产生最优成本函数 $J$。我们可以定义值函数 $V(x, t_0, t_f)$ 来描述从位置 $x$ 开始,假设控制律最优时的总积分成本:
$V(x(t_0), t_0, t_f) = \min_{u(t)} J(x(t), u(t), t_0, t_f)$
HJB 方程建立了一个偏微分方程,值函数 $V(x(t), t, t_f)$ 在每个中间时间 $t \in [t_0, t_f]$ 都必须满足该方程:
$-\frac{\partial V}{\partial t} = \min_{u(t)} \left[ \left( \frac{\partial V}{\partial x} \right)^T f(x(t),
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



