强化深度学习task-04

本文介绍了Q-learning的基本概念,探讨了状态价值函数的计算方法,并对比了蒙特卡洛法与时间差分法的不同之处。此外,还详细解释了Q-function的概念及其在强化学习中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Q-learning
参考资料
Q-learning (Basic Idea):https://www.bilibili.com/video/BV1MW411w79n?p=3
Q-learning (Advanced Tips): https://www.bilibili.com/video/BV1MW411w79n?p=4
Q-learning (Continuous Action):https://www.bilibili.com/video/BV1MW411w79n?p=5
Actor-Critic:https://www.bilibili.com/video/BV1MW411w79n?p=6
教程
一、介绍(introduction)

  1. 状态价值函数(state value function)
    当看到一个状态s时,用actorπ\piπ做出一系列行动选择后累计得分的期望值(Vπ(s)V^\pi(s)Vπ(s)
    在这里插入图片描述
  2. 估算Vπ(s)V^\pi(s)Vπ(s)的方法
    (1)蒙特卡洛法(MC):随机产生state,计算reward。缺点:很难覆盖到所有的状态,误差较大,而且方差比较大。
    (2)Temporal-difference(TD)approach:针对有的游戏很长的情况,这种方法不需要必须将游戏进行到底。因为Vπ(st+1)V^\pi(s_{t+1})Vπ(st+1)Vπ(st)V^\pi(s_{t})Vπ(st)之间的差值就是rtr_trt,因此,当预测出Vπ(st)V^\pi(s_{t})Vπ(st),可计算出Vπ(st+1)V^\pi(s_{t+1})Vπ(st+1)Vπ(st+1)=Vπ(st)+rtV^\pi(s_{t+1})=V^\pi(s_{t})+r_tVπ(st+1)=Vπ(st)+rt。缺点:如果Vπ(st)V^\pi(s_{t})Vπ(st)算不准,则Vπ(st+1)V^\pi(s_{t+1})Vπ(st+1)也会算不准,但方差比较小。这种方法用的更多
    两种方法得出的结果可能不一样,比如下面这个例子:
    在这里插入图片描述
    一共进行了8次采样,第一次是先sas_asa状态,然后又到sbs_bsb状态,最后reward为0,还有7次是直接采样到sbs_bsb,1次reward是0,6次是1,对于sbs_bsb而言,价值为6/8=3/4,对于sas_asa而言,不同方法价值函数也不同。MC方法的结果是0(根据第一次采样结果),TD的结果是3/4(sas_asa通过reward=0到达sbs_bsb,所以最终结果就是Vπ(sb)V^\pi(s_b)Vπ(sb)
  3. Q-function
    两种写法:
    在这里插入图片描述
    从而可以对π\piπ进行更新:
    在这里插入图片描述
    可以证明Vπ<=Vπ′V^\pi<=V^{\pi'}Vπ<=Vπ:
    在这里插在这里插入图片描述入图片描述

在具体计算Q时用到下面的方法:
在这里插入图片描述
左右两个Q有中间这个等式约束。首先将右边的Q固定住,用中间的公式去拟合左边的Q,左边的Q在更新多次后再赋值给右面的Q,然后再用中间公式更新左边的Q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值