34、基于点的值迭代与相关算法解析

基于点的值迭代与相关算法解析

1. 快速生成下界的方法

在不进行信念空间规划的情况下,有几种方法可以快速生成以 alpha 向量表示的下界。尽管上界方法通常可直接用于生成合理的策略,但本节讨论的下界通常仅用于为其他规划算法提供初始值。

1.1 最佳动作最坏状态(BAWS)下界

最佳动作最坏状态(BAWS)下界是一种常见的下界。它是通过在最坏状态下永远采取最佳动作所获得的折扣奖励,公式如下:
[
r_{baws} = \max_{a} \sum_{k=1}^{\infty} \gamma^{k - 1} \min_{s} R(s, a) = \frac{1}{1 - \gamma} \max_{a} \min_{s} R(s, a)
]
该下界由单个 alpha 向量表示,通常比较宽松,但可用于为其他能收紧该界的算法提供初始值。以下是其实现代码:

function baws_lowerbound(𝒫::POMDP)
    𝒮, 𝒜, R, γ = 𝒫.𝒮, 𝒫.𝒜, 𝒫.R, 𝒫.γ
    r = maximum(minimum(R(s, a) for s in 𝒮) for a in 𝒜) / (1-γ)
    α = fill(r, length(𝒮))
    return α
end

1.2 盲下界

盲下界为每个动作使用一个 alpha 向量来表示下界。它假设我们被迫永远执行单一动作,而不考虑未来的观察结果。为了计算这些 alpha 向量,我们从另一个下界(通常是最佳动作最坏状

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值