基于强化学习的U-Tree:解决POMDP问题的新方法
在解决部分可观测马尔可夫决策过程(POMDP)问题时,U-Tree算法展现出了独特的优势。下面我们将详细探讨U-Tree算法的相关内容,包括其核心函数、实验设置以及性能评估。
核心函数
- VALUE_ITERATE函数 :该函数执行值迭代。U-Tree在选择值迭代算法类型上具有灵活性,这里使用了两种类型的值迭代,分别由方程(5)和(9)定义。
- 预期即时奖励 :预期即时奖励 $R(s, a)$ 可以通过U-Tree轻松获得,公式为:
[
R(s, a)=\sum_{T_{i+1}\in T(s,a)}r_{i+1}
] - 状态转移概率 :状态转移概率可以通过以下公式计算:
[
M(s, a, s’)=\frac{ {T_{i+1}\in T(s,a)|L(T_{i+1}) = s’}}{T(s,a)}
]
其中,$L(T)$ 返回包含实例 $T$ 的节点。
- 预期即时奖励 :预期即时奖励 $R(s, a)$ 可以通过U-Tree轻松获得,公式为:
- K_S_TEST和CHI2_TEST函数 :$K_S_TEST$ 函数执行柯尔莫哥洛夫 - 斯米尔诺夫检验,$CHI2_TEST$ 函数执行卡方检验。这两个函数用于测试两个给定节点下所有实例值的分布,如果两个分布被认为不同,则返回 $TRUE$。实例值的定义取决于具体应用,本文使用了两种定义:
超级会员免费看
订阅专栏 解锁全文
367

被折叠的 条评论
为什么被折叠?



