15、POMDP 控制器的最优预算与单调性应用

POMDP 控制器的最优预算与单调性应用

1. 单调性与参数分析

在研究过程中发现,如果一个状态局部单调递增,而另一个状态局部单调递减,那么就无法获得全局单调性。另外,如果一个参数仅在少数状态中出现,那么该参数的顺序具有充分性的可能性更高,并且该参数仅局部单调递增(或仅递减)的可能性也更高。

以网络 dp 为例,对于实例 (2,1,1) 和 (2,3,1),一个参数平均分别出现在 10.9 和 6.6 个状态中。实例 (2,1,1) 的顺序比实例 (2,3,1) 具有更高的充分性。然而,实例 (2,3,1) 找到了 18 个参数的全局单调性,而实例 (2,1,1) 未找到全局单调性。

2. 不同方法的性能对比

2.1 普通参数提升方法

普通参数提升方法在处理所有基准测试时都面临困难。由于参数数量众多,需要进行大量的区域分割,这会导致内存溢出错误。而且这些基准测试已经是原始 POMDP 基准测试中的最小实例,无法选择参数更少的基准测试。

2.2 集成方法

集成方法取得了更多的结果。具体表现如下:
- 选择一个好的初始 CurMax 非常有帮助,因为对于许多基准测试,不需要进行区域分割,从 # i = 0 这一事实可以观察到这一点。
- 当需要进行区域分割时,例如想要更精确的结果(ε = 0.05),该方法仍然适用于大多数基准测试。启发式方法有助于减少辅助单调性检查器所需的额外参数提升调用次数。
- 只有在对网络 ps 实例 (2,5,1) 和 4 × 4 网格实例 (4) 进行最小化操作,且 ε = 0.05 时,会出现内存溢出问题。对于网络 ps 的实例 (2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值