强化学习 时序差分学习(Temporal-Difference Learning)

本文介绍了强化学习中的时序差分学习(Temporal-Difference Learning),包括基本概念、TD(0)、n-step TD和TD(λ)。时序差分学习是一种无模型的学习方法,通过时序自举采样数据并最小化差分来更新参数。TD(0)仅考虑当前奖励,n-step TD考虑更长期的奖励,而TD(λ)则对奖励进行加权平均。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

基本概念

TD(0)

n-step TD

TD(λ)

总结


基本概念

     先看差分的定义:

       差分表示一种差异,小区间上的增量,可以类比于函数中的导数,度量变化的一个指标;

       直觉上,当系统趋于稳定时,自变量的变化引起的函数值的变化趋近于0.

       在强化学习中,差分是指

                                     \Delta V = V(S;\theta_{new}) - V(S;\theta_{old})

      我们希望它越小越好,使系统趋于稳定。

       那时序又是指什么? 在强化学习场景下,Agent不断地与环境交互,产生数据,本身就是时序的,这是大背景。

       时序差分还有更重要的特性:

      时序的另一层含义是自举(boot

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值