ML--时间差分(TD)

时间差分

背景

时间差分学习简称TD学习,和蒙特卡洛一样,他也从Episode学习,不需要了解模型本身,但是它可以学习不完整的Episode。
模型状态转移及奖励的情况下,学习不完整的轨迹,通过贝尔曼递推公式(自举的方法)求取值函数,获得最优解。。
优点:可在线实时学习,可学习不完整的轨迹。比较适用于控制工程。
同策略VS异策略
同策略:产生采样的策略和评估控制的策略是同一个策略。
异策略:产生采样的策略和评控制的策略是不同的策略。比较容易的从人类经验或其他个体的经验中学习,有人可以从一些旧的策略中学习,可以比较两份策略的优劣,其中可能也是最主要的原因就是遵循一个探索式策略的基础上优化现有得策略。
在这里插入图片描述

sarsa

同策略时间差分:
在这里插入图片描述

sarsa
其中Q(s, a)是一张大表存储,不适合解决较大数据问题。 异策略时间差分:

在这里插入图片描述
算法步骤;
Step1:算法输入Initialize S,迭代次数 T,状态集合 S,动作集合 A,即初始化。
Step2.Choose A from S从当前状态下所选择的动作;
Step3.Take action A,observe R,S’,状态执行当前动作,得到新的状态 S’ 和新的奖励 R;
Step4:Q(S,A)←Q(S,A)+α[R+γmax⁡aQ(S′,a)−Q(S,A)];\begin{array}{l}{Q(S, A) \leftarrow Q(S, A)+\alpha\left[R+\gamma \max _{a} Q\left(S^{\prime}, a\right)-Q(S, A)\right]} ; \end{array}Q(S,A)Q(S,A)+α[R+γmaxaQ(S,a)Q(S,A)];更新价值函数;
Step5:S←S′S \leftarrow S^{\prime} SS把下一个状态重新赋值一个新的状态。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值