一、前言
本章我们关注on-policy control 问题,这里采用参数化方法逼近action-value函数 q̂ (s,a,w)≈q(s,a)q^(s,a,w)≈q(s,a),其中,ww为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算法,是对上一章中介绍的semi-gradient TD(0)的一种扩展,将其用于逼近action value, 并用于 on-policy control。在episodic 任务中,这种扩展是十分直观的,但对于连续问题来说,我们需要考虑如何将discount (折扣系数)用于定义optimal policy。值得注意的是,在对连续任务进行函数逼近时,我们必须放弃discount ,而改用一个新的形式 ” average reward”和一个“differential” value function进行表示。
首先,针对episodic任务,我们将上一章用于state value 的函数逼近思想扩展到action value上,然后我们将这些思想扩展到 on-policy GPI过程中,用ϵϵ-greedy来选择action,最后针对连续任务,对包含differential value的average-reward运用上述思想。
二、Episode Semi-gradient Control
将第9章中的semi-gradient prediction 方法扩展到control问题中。这里,approximate action-value q̂ ≈qπq^≈qπ,是权重向量 ww 的函数。在第9章中逼近state-value时,所采用的训练样例为 St↦UtSt↦Ut,本章中所采用的训练样例为St,At↦UtSt,At↦Ut,update target UtUt可以是qπ(St,At)qπ(St,At)