90、强化学习中的主动学习策略与方法

rust6ferris

于 2025-09-11 09:54:50 发布

阅读量36

点赞数

CC 4.0 BY-SA版权

分类专栏：人工智能：现代方法精解文章标签：主动强化学习近似ADP算法探索与利用

本文链接：https://blog.youkuaiyun.com/rust6ferris/article/details/151887477

人工智能：现代方法精解专栏收录该内容

99 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习中的主动学习策略与方法

1. 近似ADP算法的优势

近似ADP算法在学习速度和计算效率上表现出色。在训练序列数量方面，它的学习速度与完整ADP算法大致相同，但在总计算量上却有数量级的提升，这使得它能够处理完整ADP算法难以应对的大规模状态空间。此外，在学习新环境的早期阶段，过渡模型P往往不准确，此时计算精确的效用函数意义不大。而近似ADP算法可以使用一个最小调整大小，随着过渡模型变得更加准确而逐渐减小，从而避免了因模型大幅变化而在学习早期出现的长时间价值迭代。

2. 主动强化学习

2.1 主动ADP代理的调整

被动学习代理有固定的策略来决定其行为，而主动学习代理则可以自主决定采取何种行动。对于自适应动态规划（ADP）代理，需要进行以下调整：
- 学习完整的过渡模型：代理需要学习所有动作的结果概率的完整过渡模型，而不仅仅是固定策略的模型。PASSIVE - ADP - AGENT所使用的学习机制可以满足这一需求。
- 考虑动作选择：代理需要学习由最优策略定义的效用，这些效用遵循贝尔曼方程：
[U(s) = \max_{a\in A(s)}\sum_{s’} P(s’ |s,a)[R(s,a,s’)+\gamma U(s’)]]
可以使用价值迭代或策略迭代算法来求解该方程以获得效用函数U。
- 每一步的决策：在获得了针对学习模型的最优效用函数U后，代理可以通过一步前瞻来选择最大化预期效用的最优动作；或者，如果使用策略迭代，最优策略已经确定，代理可以直接执行最优策略推荐的动作。但这是否是最佳选择呢？