66、强化学习中的延迟方法、连续空间扩展及函数逼近器应用

perl8

于 2025-10-14 09:23:59 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：神经计算：智能的基石文章标签：强化学习延迟方法连续空间

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/perl8/article/details/154888872

神经计算：智能的基石专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的延迟方法、连续空间扩展及函数逼近器应用

1. 延迟强化学习方法

延迟强化学习方法依赖于 Q 值的初始大小，并使用退火率将其减小到零。在每个这样生成的 T 值下，会执行多次 Q 学习试验。这样，在初始较大的 T 值时进行探索。TD(λ)学习规则（C3.4.20）估计每个 T 下策略的预期回报，并且当 T 趋近于 0 时，Q 将收敛到 Q*。

对于将 Q 学习应用于由连续时间问题离散化产生的强化学习问题，需要注意的是，当离散化时间周期趋近于零时，Q 函数往往与动作无关，因此不适合将 Q 学习用于连续时间问题。对于此类问题，Baird（1993）建议使用一种称为优势函数的 Q 函数的适当修改形式。

2. 扩展到连续空间

动态系统的最优控制通常涉及解决具有连续状态/动作空间的延迟强化学习问题。

2.1 状态空间连续但动作空间离散

如果状态空间是连续的，但动作空间是离散的，那么前面讨论的所有延迟 FtL 算法都可以很容易地扩展，前提是使用适当的函数逼近器，将某个状态的实时经验推广到所有拓扑上相邻的状态。

2.2 动作空间连续

如果动作空间是连续的，算法的扩展则更加困难。例如，当尝试将实时动态规划（RTDP）扩展到连续动作空间时，（C3.5.5）中的最大操作是非平凡且困难的。因此，即使是基于值迭代的方法也需要为动作维护一个函数逼近器。

2.3 处理连续动作空间的方法

2.3.1 基于模型的方法

Werbos（1990b）提出了多种算法，这里介绍一种重要的算法——反向传播自适应评判器（backpropag

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。