40、强化学习与降阶模型：理论、方法与应用

电竞养老选手

于 2025-09-21 09:16:35 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：数据驱动的科学革命文章标签：强化学习降阶模型汉密尔顿-雅可比-贝尔曼方程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tensor9flow/article/details/152346934

数据驱动的科学革命专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与降阶模型：理论、方法与应用

强化学习与最优非线性控制

强化学习在机器人和自动驾驶等领域有着广泛的应用，这些应用通常对安全性要求极高，并且存在物理约束。例如，自动驾驶汽车有望重塑现代交通和能源格局。

在最优非线性控制方面，强化学习与最优非线性控制有很大的重叠，历史上它们在相同的优化框架下并行发展。

汉密尔顿 - 雅可比 - 贝尔曼方程（HJB）

在最优控制中，目标是找到控制输入 $u(t)$，使动态系统 $\frac{d}{dt}x = f(x(t), u(t), t)$ 沿着轨迹 $x(t)$ 运行，从而最小化成本函数：
$J(x(t), u(t), t_0, t_f) = Q(x(t_f), t_f) + \int_{t_0}^{t_f} L(x(\tau), u(\tau)) d\tau$

给定初始状态 $x_0 = x(t_0)$，最优控制 $u(t)$ 会产生最优成本函数 $J$。我们可以定义值函数 $V(x, t_0, t_f)$ 来描述从位置 $x$ 开始，假设控制律最优时的总积分成本：
$V(x(t_0), t_0, t_f) = \min_{u(t)} J(x(t), u(t), t_0, t_f)$

HJB 方程建立了一个偏微分方程，值函数 $V(x(t), t, t_f)$ 在每个中间时间 $t \in [t_0, t_f]$ 都必须满足该方程：
$-\frac{\partial V}{\partial t} = \min_{u(t)} \left[ \left( \frac{\partial V}{\partial x} \right)^T f(x(t),

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。