datawhale深度强化学习笔记01

  • Task 01
    • 个人理解的状态价值函数和动作价值函数:不同状态下,采取相同的策略函数\piπ\piπ所得到收益不同。举个例子:我在图书馆和宿舍两种不同状态下,进行相同的学习动作,那么显而易见是在图书馆的收益更大(效率更高)。动作价值函数也是如此,当我在图书馆时,我学习的奖励要比睡觉的奖励要高。
    • 状态价值函数贝尔曼方程的推导:R(s)的意义是当前状态为s时奖励的均值,因为已知量为s,动作a仍是未知量,所以R_{t+1}​不是定值
    • 动作价值函数贝尔曼方程的推导
      • Q_{\pi}(s,a)=\mathbb{E}_{\pi}[G_t|S_t=s,A_t=a] \\ =\mathbb{E}_{\pi}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots |S_t=s,A_t=a]\\=\mathbb{E}_{\pi}[R_{t+1} |S_t=s,A_t=a]+\gamma \mathbb{E}_{\pi}[ R_{t+2}+\gamma R_{t+3}+\cdots |S_t=s,A_t=a]\\=R(s,a)+\gamma \mathbb{E}[G_{t+1}|S_t=s,A_t=a]\\=R(s,a)+\gamma \mathbb{E}[Q_{\pi}(s_{t+1},a_{t+1})|S_t=s,A_t=a]\\=R(s,a)+\gamma \sum\limits_{s'\in S}p(s'|s,a)\sum\limits_{a'\in A}\pi(a'|s,a)Q_\pi(s',a')
    • 如何理解最优策略
      • 以我个人的见解,策略\pi就是当前状态s已知的情况下智能体做出动作的概率,并且每种不同的动作与奖励一一对应。当我们选择最大奖励r时,对应的动作a也唯一确定,那么最优策略就是状态为s时,执行a,而不再是一个概率。此时s唯一决定a,a就不再是自变量。
    • 如何理解在最优策略下,状态价值函数最优,动作价值函数最优
      • 最优策略唯一确定,虽然当前的开始状态s不一定是最佳状态,但从现在到进程结束的整个阶段收益最大。拿下棋做比方,你可能损失了一个兵却能之后让对手陷入你设下的圈套从而获得胜利,损失兵不是当前最优确是全局最优。
    • 策略迭代的个人举例
      • 拿下棋举例。(1)先随便制定策略,然后开始不断尝试,直到在该策略下所有的状态都弄清楚,获得该策略下的状态价值函数。(2)再切换策略,用上一轮得到的状态价值函数来评估每一步动作,并不断比较动作所带来的价值,最终得到该状态价值函数下的最优策略。(3)再重复(1),固定策略,确定新的状态价值函数。(4)再重复(2)……如此往复,直到收敛
    • 价值迭代的个人举例
      • 同样拿下棋举例。确定一种棋局样式,设定该为s然后下一步棋,记录收益,不断重复该过程直到尝试所有下棋的可能,将收益最大的动作对应收益记录为当前ssss状态下的状态价值函数。重复该过程,直到获得所有状态的状态价值函数,从而再确定最优策略。
    • 幕布更加常用一些链接
    • 记录于2023/11/13
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值