8、基于模型的强化学习方法解析

基于模型的强化学习方法解析

1. 策略迭代(Policy Iteration)

策略迭代是一种用于寻找马尔可夫决策过程(MDP)最优策略的方法。其核心思想是通过不断迭代更新价值函数和策略函数,直至收敛到最优策略。

1.1 算法步骤

以下是策略迭代的具体算法:

Algorithm 6 Policy Iteration
1: Input: MDP model and an arbitrary policy π
2: Output: policy π ≈π∗
3: Initialize a random value array vπ(s), ∀s ∈S
4: repeat
5:
    ˆv(s) ←vπ, ∀s ∈S
6:
    Update vπ by policy evaluation in Algorithm 5
7:
    Update π based on policy improvement (4.10)
8:
    ∆←max{|vπ −ˆv(s)|, ∀s ∈S}
9: until ∆< θ (a pre-assigned small positive number)

1.2 收敛性分析

策略迭代总是能收敛到最优策略。当存在终止状态或折扣因子 γ < 1 时,收敛是有保证的。这两个条件在数学上是相似的,随着决策长度 n 的增加,γⁿ → 0,后续状态对当前状态的影响可忽略不计,决策过程能在有限步骤内结束。

1.3 网格世界示例

网格世界是强化学习算法测试中

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值