强化学习中的主动学习策略与方法
1. 近似ADP算法的优势
近似ADP算法在学习速度和计算效率上表现出色。在训练序列数量方面,它的学习速度与完整ADP算法大致相同,但在总计算量上却有数量级的提升,这使得它能够处理完整ADP算法难以应对的大规模状态空间。此外,在学习新环境的早期阶段,过渡模型P往往不准确,此时计算精确的效用函数意义不大。而近似ADP算法可以使用一个最小调整大小,随着过渡模型变得更加准确而逐渐减小,从而避免了因模型大幅变化而在学习早期出现的长时间价值迭代。
2. 主动强化学习
2.1 主动ADP代理的调整
被动学习代理有固定的策略来决定其行为,而主动学习代理则可以自主决定采取何种行动。对于自适应动态规划(ADP)代理,需要进行以下调整:
- 学习完整的过渡模型:代理需要学习所有动作的结果概率的完整过渡模型,而不仅仅是固定策略的模型。PASSIVE - ADP - AGENT所使用的学习机制可以满足这一需求。
- 考虑动作选择:代理需要学习由最优策略定义的效用,这些效用遵循贝尔曼方程:
[U(s) = \max_{a\in A(s)}\sum_{s’} P(s’ |s,a)[R(s,a,s’)+\gamma U(s’)]]
可以使用价值迭代或策略迭代算法来求解该方程以获得效用函数U。
- 每一步的决策:在获得了针对学习模型的最优效用函数U后,代理可以通过一步前瞻来选择最大化预期效用的最优动作;或者,如果使用策略迭代,最优策略已经确定,代理可以直接执行最优策略推荐的动作。但这是否是最佳选择呢?
超级会员免费看
订阅专栏 解锁全文
2334

被折叠的 条评论
为什么被折叠?



