基于点的值迭代与相关算法解析
1. 快速生成下界的方法
在不进行信念空间规划的情况下,有几种方法可以快速生成以 alpha 向量表示的下界。尽管上界方法通常可直接用于生成合理的策略,但本节讨论的下界通常仅用于为其他规划算法提供初始值。
1.1 最佳动作最坏状态(BAWS)下界
最佳动作最坏状态(BAWS)下界是一种常见的下界。它是通过在最坏状态下永远采取最佳动作所获得的折扣奖励,公式如下:
[
r_{baws} = \max_{a} \sum_{k=1}^{\infty} \gamma^{k - 1} \min_{s} R(s, a) = \frac{1}{1 - \gamma} \max_{a} \min_{s} R(s, a)
]
该下界由单个 alpha 向量表示,通常比较宽松,但可用于为其他能收紧该界的算法提供初始值。以下是其实现代码:
function baws_lowerbound(𝒫::POMDP)
𝒮, 𝒜, R, γ = 𝒫.𝒮, 𝒫.𝒜, 𝒫.R, 𝒫.γ
r = maximum(minimum(R(s, a) for s in 𝒮) for a in 𝒜) / (1-γ)
α = fill(r, length(𝒮))
return α
end
1.2 盲下界
盲下界为每个动作使用一个 alpha 向量来表示下界。它假设我们被迫永远执行单一动作,而不考虑未来的观察结果。为了计算这些 alpha 向量,我们从另一个下界(通常是最佳动作最坏状
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



