POMDP 控制器的最优预算与单调性应用
1. 单调性与参数分析
在研究过程中发现,如果一个状态局部单调递增,而另一个状态局部单调递减,那么就无法获得全局单调性。另外,如果一个参数仅在少数状态中出现,那么该参数的顺序具有充分性的可能性更高,并且该参数仅局部单调递增(或仅递减)的可能性也更高。
以网络 dp 为例,对于实例 (2,1,1) 和 (2,3,1),一个参数平均分别出现在 10.9 和 6.6 个状态中。实例 (2,1,1) 的顺序比实例 (2,3,1) 具有更高的充分性。然而,实例 (2,3,1) 找到了 18 个参数的全局单调性,而实例 (2,1,1) 未找到全局单调性。
2. 不同方法的性能对比
2.1 普通参数提升方法
普通参数提升方法在处理所有基准测试时都面临困难。由于参数数量众多,需要进行大量的区域分割,这会导致内存溢出错误。而且这些基准测试已经是原始 POMDP 基准测试中的最小实例,无法选择参数更少的基准测试。
2.2 集成方法
集成方法取得了更多的结果。具体表现如下:
- 选择一个好的初始 CurMax 非常有帮助,因为对于许多基准测试,不需要进行区域分割,从 # i = 0 这一事实可以观察到这一点。
- 当需要进行区域分割时,例如想要更精确的结果(ε = 0.05),该方法仍然适用于大多数基准测试。启发式方法有助于减少辅助单调性检查器所需的额外参数提升调用次数。
- 只有在对网络 ps 实例 (2,5,1) 和 4 × 4 网格实例 (4) 进行最小化操作,且 ε = 0.05 时,会出现内存溢出问题。对于网络 ps 的实例 (2
超级会员免费看
订阅专栏 解锁全文
932

被折叠的 条评论
为什么被折叠?



