强化学习(二):价值函数

本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系。我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面、结构合理的知识库。

作者博客:途中的树

书接上回强化学习(一): Agent - Environment框架

强化学习中需要通过评估行为的价值来生成政策 π \pi π,行为 a a a 的价值可以用 Q ( a ) Q(a) Q(a)来表示。

行为价值如何评估

  • 行为价值方法可以对每个 a a a设置一个值
  • 评估来自环境的反馈,可以揭示出与情况 s s s和基本策略 π \pi π相关的各自的行动 a a a到底有多大的 “价值”
  • 事实上 Q ( a ) = Q ( s , a ) = Q π ( s , a ) Q(a)=Q(s,a)=Q_{\pi}(s,a) Q(a)=Q(s,a)=Qπ(s,a),但是为了简化,暂时省略 Q ( a ) Q(a) Q(a) s , π s,\pi s,π

样本平均法 Sample average method

  • 估算 Q t ( a ) Q_t(a) Qt(a)的一个自然方法是通过对选择行动 a a a时实际得到的奖励 r k r_k rk进行平均化。这就是——样本平均法 sample-average method. 就是同一个动作多做几次,记录每次获得的奖励,求平均值
    • Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a k a Q_t(a)=\frac{r_1+r_2+r_3+...+r_{k_a}}{k_a} Qt(a)=kar1+r2+r3+...+rka , l i m k a → ∞ Q t ( a ) = Q ∗ ( a ) lim_{k_a \rightarrow \infty}Q_t(a)=Q^*(a) limkaQt(a)=Q(a)

    • 每当采取一个行动时,将 k k k递增到 k + 1 k+1 k+1,希望 Q ( a ) Q(a) Q(a)能收敛到真正的 Q ∗ ( a ) Q^*(a) Q(a)

      • Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a + r k a + 1 k a + 1 Q_t(a)=\frac{r_1+r_2+r_3+...+r_{k_a}+r_{k_a+1}}{k_a+1} Qt(a)=ka+1r1+r2+r3+...+rka+rka+1

      • 确定行动价值函数 Q ( a ) Q(a) Q(a)的增量函数

        Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a + r k a + 1 k a + 1 = 1 k + 1 ∑ i = 1 k + 1 r i = 1 k + 1 ( r k + 1 + ∑ i = 1 k r i ) = 1 k + 1 ( r k + 1 + k Q k + Q k − Q k ) = Q k + 1 k + 1 [ r k + 1 − Q k ] \begin{aligned} Q_t(a) &= \frac{r_1+r_2+r_3+...+r_{k_a}+r_{k_a+1}}{k_a+1} \\&= \frac{1}{k+1}\sum^{k+1}_{i=1}r_i \\ &=\frac{1}{k+1}(r_{k+1}+\sum^{k}_{i=1}r_i) \\ &= \frac{1}{k+1}(r_{k+1}+kQ_k+Q_k-Q_k)\\&=Q_k+\frac{1}{k+1}[r_{k+1}-Q_k]\end{aligned} Qt(a)=ka+1r1+r2+r3+...+rka+rka+1=k+11i=1k+1ri=k+11(rk+1+i=1kri)=k+11(rk+1+kQk+QkQk)=Qk+<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值