强化学习系列(十):On-policy Control with Approximation

本文探讨了在强化学习中,如何使用on-policy控制和函数逼近解决连续任务。介绍了Episode和n-step Semi-gradient Sarsa算法,并对比了discounted设置与average reward设置在连续任务中的适用性。重点阐述了average reward设置的优势,以及在函数逼近中discounted设置的局限性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、前言

本章我们关注on-policy control 问题,这里采用参数化方法逼近action-value函数 q̂ (s,a,w)q(s,a)q^(s,a,w)≈q(s,a),其中,ww为权重向量。在11章中会讨论off-policy方法。本章介绍了semi-gradient Sarsa算法,是对上一章中介绍的semi-gradient TD(0)的一种扩展,将其用于逼近action value, 并用于 on-policy control。在episodic 任务中,这种扩展是十分直观的,但对于连续问题来说,我们需要考虑如何将discount (折扣系数)用于定义optimal policy。值得注意的是,在对连续任务进行函数逼近时,我们必须放弃discount ,而改用一个新的形式 ” average reward”和一个“differential” value function进行表示。

首先,针对episodic任务,我们将上一章用于state value 的函数逼近思想扩展到action value上,然后我们将这些思想扩展到 on-policy GPI过程中,用ϵϵ-greedy来选择action,最后针对连续任务,对包含differential value的average-reward运用上述思想。

二、Episode Semi-gradient Control

将第9章中的semi-gradient prediction 方法扩展到control问题中。这里,approximate action-value q̂ qπq^≈qπ,是权重向量 ww 的函数。在第9章中逼近state-value时,所采用的训练样例为 StUtSt↦Ut,本章中所采用的训练样例为St,AtUtSt,At↦Ut,update target UtUt可以是qπ(St,At)qπ(St,At)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值