强化学习基础知识笔记[5] - 值函数逼近

参考资料
[1] 强化学习入门 第五讲 值函数逼近
本文主要是对该资料学习的笔记,并且加入了一些自己的想法,如有错误欢迎指出。

强化学习的分类

aaa

无模型强化学习 - 理论

强化学习的核心问题

强化学习的核心问题为:

  1. 策略评估部分:值函数、状态-行为值函数的估计问题!
  2. 策略改善部分:给定值函数下, π ( a ∣ s ) \pi(a|s) π(as)的选取问题!

回报函数、值函数定义

累计回报函数
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 (1.1) G_t = R_{t+1} + \gamma R_{t+2} + ... = \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} \tag{1.1} Gt=Rt+1+γRt+2+...=k=0γkRt+k+1(1.1)
状态值函数
v π ( s ) = E π [ G t ] = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s ] (1.2) v_\pi (s) = E_\pi[G_t] = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s \right] \tag{1.2} vπ(s)=Eπ[Gt]=Eπ[k=0γkRt+k+1St=s](1.2)
行为值函数
q π ( s , a ) = E π [ ∑ k = 0 ∞ γ k R t + k + 1 ∣ S t = s , A t = a ] (1.3) q_\pi (s,a) = E_\pi \left[ \sum^{\infty}_{k=0} \gamma ^{k}R_{t+k+1} | S_t = s , A_t = a \right] \tag{1.3} qπ(s,a)=Eπ[k=0γkRt+k+1St=s,A

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值