34、基于点的值迭代与相关算法解析-优快云博客

本文链接：https://blog.youkuaiyun.com/read5/article/details/152386405

基于点的值迭代与相关算法解析

1. 快速生成下界的方法

在不进行信念空间规划的情况下，有几种方法可以快速生成以 alpha 向量表示的下界。尽管上界方法通常可直接用于生成合理的策略，但本节讨论的下界通常仅用于为其他规划算法提供初始值。

1.1 最佳动作最坏状态（BAWS）下界

最佳动作最坏状态（BAWS）下界是一种常见的下界。它是通过在最坏状态下永远采取最佳动作所获得的折扣奖励，公式如下：
[
r_{baws} = \max_{a} \sum_{k=1}^{\infty} \gamma^{k - 1} \min_{s} R(s, a) = \frac{1}{1 - \gamma} \max_{a} \min_{s} R(s, a)
]
该下界由单个 alpha 向量表示，通常比较宽松，但可用于为其他能收紧该界的算法提供初始值。以下是其实现代码：

function baws_lowerbound(𝒫::POMDP)
    𝒮, 𝒜, R, γ = 𝒫.𝒮, 𝒫.𝒜, 𝒫.R, 𝒫.γ
    r = maximum(minimum(R(s, a) for s in 𝒮) for a in 𝒜) / (1-γ)
    α = fill(r, length(𝒮))
    return α
end