基于模型的强化学习方法解析
1. 策略迭代(Policy Iteration)
策略迭代是一种用于寻找马尔可夫决策过程(MDP)最优策略的方法。其核心思想是通过不断迭代更新价值函数和策略函数,直至收敛到最优策略。
1.1 算法步骤
以下是策略迭代的具体算法:
Algorithm 6 Policy Iteration
1: Input: MDP model and an arbitrary policy π
2: Output: policy π ≈π∗
3: Initialize a random value array vπ(s), ∀s ∈S
4: repeat
5:
ˆv(s) ←vπ, ∀s ∈S
6:
Update vπ by policy evaluation in Algorithm 5
7:
Update π based on policy improvement (4.10)
8:
∆←max{|vπ −ˆv(s)|, ∀s ∈S}
9: until ∆< θ (a pre-assigned small positive number)
1.2 收敛性分析
策略迭代总是能收敛到最优策略。当存在终止状态或折扣因子 γ < 1 时,收敛是有保证的。这两个条件在数学上是相似的,随着决策长度 n 的增加,γⁿ → 0,后续状态对当前状态的影响可忽略不计,决策过程能在有限步骤内结束。
1.3 网格世界示例
网格世界是强化学习算法测试中
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



