本文章收录在黑鲸智能系统知识库-黑鲸智能系统知识库成立于2021年,致力于建立一个完整的智能系统知识库体系。我们的工作:收集和整理世界范围内的学习资源,系统地建立一个内容全面、结构合理的知识库。
作者博客:途中的树
书接上回强化学习(一): Agent - Environment框架
强化学习中需要通过评估行为的价值来生成政策 π \pi π,行为 a a a 的价值可以用 Q ( a ) Q(a) Q(a)来表示。
行为价值如何评估
- 行为价值方法可以对每个 a a a设置一个值
- 评估来自环境的反馈,可以揭示出与情况 s s s和基本策略 π \pi π相关的各自的行动 a a a到底有多大的 “价值”
- 事实上 Q ( a ) = Q ( s , a ) = Q π ( s , a ) Q(a)=Q(s,a)=Q_{\pi}(s,a) Q(a)=Q(s,a)=Qπ(s,a),但是为了简化,暂时省略 Q ( a ) Q(a) Q(a)的 s , π s,\pi s,π
样本平均法 Sample average method
- 估算 Q t ( a ) Q_t(a) Qt(a)的一个自然方法是通过对选择行动 a a a时实际得到的奖励 r k r_k rk进行平均化。这就是——样本平均法 sample-average method. 就是同一个动作多做几次,记录每次获得的奖励,求平均值
-
Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a k a Q_t(a)=\frac{r_1+r_2+r_3+...+r_{k_a}}{k_a} Qt(a)=kar1+r2+r3+...+rka , l i m k a → ∞ Q t ( a ) = Q ∗ ( a ) lim_{k_a \rightarrow \infty}Q_t(a)=Q^*(a) limka→∞Qt(a)=Q∗(a)
-
每当采取一个行动时,将 k k k递增到 k + 1 k+1 k+1,希望 Q ( a ) Q(a) Q(a)能收敛到真正的 Q ∗ ( a ) Q^*(a) Q∗(a)。
-
Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a + r k a + 1 k a + 1 Q_t(a)=\frac{r_1+r_2+r_3+...+r_{k_a}+r_{k_a+1}}{k_a+1} Qt(a)=ka+1r1+r2+r3+...+rka+rka+1
-
确定行动价值函数 Q ( a ) Q(a) Q(a)的增量函数
Q t ( a ) = r 1 + r 2 + r 3 + . . . + r k a + r k a + 1 k a + 1 = 1 k + 1 ∑ i = 1 k + 1 r i = 1 k + 1 ( r k + 1 + ∑ i = 1 k r i ) = 1 k + 1 ( r k + 1 + k Q k + Q k − Q k ) = Q k + 1 k + 1 [ r k + 1 − Q k ] \begin{aligned} Q_t(a) &= \frac{r_1+r_2+r_3+...+r_{k_a}+r_{k_a+1}}{k_a+1} \\&= \frac{1}{k+1}\sum^{k+1}_{i=1}r_i \\ &=\frac{1}{k+1}(r_{k+1}+\sum^{k}_{i=1}r_i) \\ &= \frac{1}{k+1}(r_{k+1}+kQ_k+Q_k-Q_k)\\&=Q_k+\frac{1}{k+1}[r_{k+1}-Q_k]\end{aligned} Qt(a)=ka+1r1+r2+r3+...+rka+rka+1=k+11i=1∑k+1ri=k+11(rk+1+i=1∑kri)=k+11(rk+1+kQk+Qk−Qk)=Qk+<
-
-