强化学习系列（十）：On-policy Control with Approximation

最新推荐文章于 2023-06-30 19:36:00 发布

LagrangeSK

最新推荐文章于 2023-06-30 19:36:00 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签：强化学习函数逼近

本文链接：https://blog.youkuaiyun.com/LagrangeSK/article/details/81986102

本文探讨了在强化学习中，如何使用on-policy控制和函数逼近解决连续任务。介绍了Episode和n-step Semi-gradient Sarsa算法，并对比了discounted设置与average reward设置在连续任务中的适用性。重点阐述了average reward设置的优势，以及在函数逼近中discounted设置的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、前言

本章我们关注on-policy control 问题，这里采用参数化方法逼近action-value函数 $\hat q(s,a,\mathbf w) \approx q(s,a)$ ，其中， $\mathbf w$ 为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算法，是对上一章中介绍的semi-gradient TD(0)的一种扩展，将其用于逼近action value, 并用于 on-policy control。在episodic 任务中，这种扩展是十分直观的，但对于连续问题来说，我们需要考虑如何将discount (折扣系数）用于定义optimal policy。值得注意的是，在对连续任务进行函数逼近时，我们必须放弃discount ，而改用一个新的形式 ” average reward”和一个“differential” value function进行表示。

首先，针对episodic任务，我们将上一章用于state value 的函数逼近思想扩展到action value上，然后我们将这些思想扩展到 on-policy GPI过程中，用 $\epsilon$ -greedy来选择action，最后针对连续任务，对包含differential value的average-reward运用上述思想。

二、Episode Semi-gradient Control

将第9章中的semi-gradient prediction 方法扩展到control问题中。这里，approximate action-value $\hat q \approx q_\pi$ ，是权重向量 $\mathbf w$ 的函数。在第9章中逼近state-value时，所采用的训练样例为 $S_t \mapsto U_t$ ，本章中所采用的训练样例为 $S_t,A_t \mapsto U_t$ ，update target $U_t$ 可以是qπ(St,At)