Chapter 4 Dynamic Programming

本文深入解析了强化学习中的动态规划(DP)方法,包括策略评估、策略改进及迭代策略等核心概念,并探讨了策略迭代与值迭代两种算法的实现细节与应用场景。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

本笔记参考《Reinforcement Learning: An Introduction》和
David Silver的公开课及其ppt

David Silver的课程在Tabular Soluction上介绍的比较多。可以配合David Silver的课程来理解《Reinforcement Learning: An Introduction》这本书的内容


DP指的是一组算法,可以用来计算最佳策略,给定一个完美的model作为马尔科夫决策过程(MDP)[这是必须的]。当然之后介绍的算法不是用DP解的,它只是给后面要介绍的方法基础理论

一定要注意DP解问题的必要条件。我们假设environment是finite MDP。其中我们假设它的state,action以及reward sets,S,A,and,RS,A,and,R是有限的,而且它的动态性是通过一系列的概率p(s,r|s,a)p(s′,r|s,a)给出来的

4.2 Policy Evaluation (Prediction)

Policy evaluation Estimate vπ
Iterative policy evaluation

Policy Evaluation就是对于任意policy ππ ,计算出state-value function vπ。这也被看成prediction problem
Iterative Policy Evaluation, for estimating $V \approx v_{\pi}$

4.2 Policy Improvement

Policy improvement Generate πππ′≥π
Greedy policy improvement

policy improvement theorem
假设有 ππ′ππ 更好

qπ(s,π(s))vπ(s)vπ(s)vπ(s)qπ(s,π′(s))≥vπ(s)vπ′(s)≥vπ(s)

证明:
vπ(s)qπ(s,π(s))=E[Rt+1+γvπ(St+1)|St=s,At=π(s)]=Eπ[Rt+1+γvπ(St+1)|St=s]Eπ[Rt+1+γqπ(St+1,π(St+1))|St=s]=Eπ[Rt+1+γEπ[Rt+2+γvπ(St+2)|St+1]|St=s]=Eπ[Rt+1+γRt+2+γ2vπ(St+2)|St=s]Eπ[Rt+1+γRt+2+γ2Rt+3+γ3vπ(St+3)|St=s]Eπ[Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+|St=s]=vπ(s).vπ(s)≤qπ(s,π′(s))=E[Rt+1+γvπ(St+1)|St=s,At=π′(s)]=Eπ′[Rt+1+γvπ(St+1)|St=s]≤Eπ′[Rt+1+γqπ(St+1,π′(St+1))|St=s]=Eπ′[Rt+1+γEπ′[Rt+2+γvπ(St+2)|St+1]|St=s]=Eπ′[Rt+1+γRt+2+γ2vπ(St+2)|St=s]≤Eπ′[Rt+1+γRt+2+γ2Rt+3+γ3vπ(St+3)|St=s]⋮≤Eπ′[Rt+1+γRt+2+γ2Rt+3+γ3Rt+4+⋯|St=s]=vπ′(s).

很自然的就会想到使用greedy policy在每个状态s根据qπ(s,a)qπ(s,a)选择最好的a,从而得到新的policy ππ′
π(s)argmaxaqπ(s,a)=argmaxaE[Rt+1+γvπ(St+1)|St=s,At=a]=argmaxas,rp(s,r|s,a)[r+γvπ(s)]π′(s)≐argmaxaqπ(s,a)=argmaxaE[Rt+1+γvπ(St+1)|St=s,At=a]=argmaxa∑s′,rp(s′,r|s,a)[r+γvπ(s′)]
4.3 Policy Iteration

把Policy Evaluation (Prediction)和Policy Improvement两个过程迭代进行,最终获得收敛的最佳policy

π0Evπ0Iπ1Evπ1Iπ2EπEvπ0→Evπ0→Iπ1→Evπ1→Iπ2→E⋯π∗→Ev∗

policy iteration
注意上图的迭代是Policy Evaluation和Policy Improvement交替进行的

这个过程被证明是收敛的,最后一定可以收敛到最佳的policy

4.4 Value Iteration

Value Iteration不像policy iteration,没有显式的 policy evaluation。policy iteration的一个缺点是每次迭代都要进行完整的policy evaluation,这非常的耗时。

policy evaluation的步骤可以被截取为少许的几步,而且还保证policy iteration的收敛。一个特殊的例子就是在仅进行一个sweep后停止。
Value Iteration
在每个sweep中,执行一个sweep的policy evaluation和一个sweep的policy improvement
注意与policy iteration的区别p(s,r|s,π(s))p(s′,r|s,π(s))p(s,r|s,a)p(s′,r|s,a)

ProblemBellman EquationAlgorithm
PredictionBellman Expectation EquationIterative Policy Evaluation
ControlBellman Expectation Equation + Greedy Policy ImprovementIterative Policy Evaluation
ControlBellman Optimality EquationValue Iteration
4.6 Generalized Policy Iteration (GPI)

上面说的迭代就是强化学习的迭代框架
policy iterator
policy iterator

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值