Fast Downward规划器性能评估实验解析
1. 实验设计
为了评估Fast Downward规划器的性能,特别是搜索组件不同配置之间的差异,进行了一系列实验。实验目的是将Fast Downward与PDDL规划的现有技术进行比较,并对比Fast Downward不同搜索算法的性能,包括带或不带首选操作符的贪婪最佳优先搜索、带或不带首选操作符的多启发式最佳优先搜索以及聚焦迭代扩展搜索。
不过,有两个方面不在本次实验研究范围内:
- 不将因果图启发式与其他启发式(如FF或HSP启发式)进行比较,相关比较已在其他实验中完成。
- 不深入研究Fast Downward在某些领域表现好坏的原因,仅在观察到性能不佳时给出合理解释。
此外,还有一些算法问题未在本文讨论,如使用后继生成器相对于简单方法的加速效果,以及延迟启发式评估对搜索性能的影响。实验表明,后继生成器在极端情况下可使搜索速度提高两个数量级,但大多数时候影响较小;延迟启发式评估在一些领域非常有益,多数领域有一定益处,很少对性能有害。
1.1 基准测试集
基准测试集包含前四届国际规划竞赛全自动赛道的所有命题规划任务,共1442个任务。这些任务分为三类:
-
STRIPS域
:无派生谓词或条件效果,目标和操作符中的条件均为正文字的合取。
-
ADL域
:操作符使用条件效果,目标和操作符中的条件比简单合取更通用,但不需要公理。
-
PDDL2.2域
:使用命题PDDL2.2的全部功能,包括ADL域的特性和公理。
在IPC4中,部分领域有不同的表述方式,参与者可自由选择。对于一些领域,不同编码方式被视为不同领域。IPC1中除11个Mystery实例外所有任务可解;IPC2中除11个Miconic - 10 - FullADL实例外所有任务可解;IPC3所有基准可解;IPC4的Pipesworld - Tankage域假设所有任务可解。Fast Downward在启发式搜索模式下可证明不可解任务的不可解性,并将其视为“成功解决”的实例。
| 竞赛 | 领域 | 类别 | 任务数量 |
|---|---|---|---|
| IPC1 (AIPS 1998) | Assembly | ADL | 30 |
| Grid | STRIPS | 5 | |
| Gripper | STRIPS | 20 | |
| Logistics | STRIPS | 35 | |
| Movie | STRIPS | 30 | |
| Mystery | STRIPS | 30 | |
| MysteryPrime | STRIPS | 35 | |
| IPC2 (AIPS 2000) | Blocksworld | STRIPS | 35 |
| FreeCell | STRIPS | 60 | |
| Logistics | STRIPS | 28 | |
| Miconic - 10 - STRIPS | STRIPS | 150 | |
| Miconic - 10 - SimpleADL | ADL | 150 | |
| Miconic - 10 - FullADL | ADL | 150 | |
| Schedule | ADL | 150 | |
| IPC3 (AIPS 2002) | Depots | STRIPS | 22 |
| Driverlog | STRIPS | 20 | |
| FreeCell | STRIPS | 20 | |
| Rovers | STRIPS | 20 | |
| Satellite | STRIPS | 20 | |
| Zenotravel | STRIPS | 20 | |
| IPC4 (ICAPS 2004) | Airport | STRIPS | 50 |
| Promela - OpticalTelegraph | PDDL2.2 | 48 | |
| Promela - Philosophers | PDDL2.2 | 48 | |
| Pipesworld - NoTankage | STRIPS | 50 | |
| Pipesworld - Tankage | STRIPS | 50 | |
| PSR - Small | STRIPS | 50 | |
| PSR - Middle | PDDL2.2 | 50 | |
| PSR - Large | PDDL2.2 | 50 | |
| Satellite | STRIPS | 36 |
1.2 实验设置
Fast Downward的搜索组件有11种可能配置,但并非所有都合理。排除一些不合理配置后,最终选择了6种配置:
1.
G
:使用不带首选操作符的贪婪最佳优先搜索。
2.
GP
:使用带有用转换作为首选操作符的贪婪最佳优先搜索。
3.
GP+
:使用带有用转换作为首选操作符的贪婪最佳优先搜索,在无有用转换的状态下使用有用动作作为首选操作符。
4.
M
:使用不带首选操作符的多启发式最佳优先搜索。
5.
MP
:使用带有用转换和有用动作作为首选操作符的多启发式最佳优先搜索。
6.
F
:使用聚焦迭代扩展搜索。
将这6种配置应用于1442个基准任务,使用3.066 GHz Intel Xeon CPU的计算机,设置内存限制为1 GB,超时时间为300秒。为与现有技术比较,尝试用文献中表现最佳的规划器解决每个基准任务,但因部分规划器不可公开获取或仅覆盖PDDL2.2的部分子集,将基准领域分为三组进行比较。
1.3 翻译、知识编译与搜索
实验结果包含规划器三个组件(翻译、知识编译和搜索)的时间。在结果展示中,仅当总处理时间低于300秒时才认为任务已解决。研究发现,仅在5种情况下,仅搜索组件设置300秒超时与总处理时间300秒超时的结果不同,且多数情况总时间可控制在310秒以内。这表明搜索组件是Fast Downward实际应用中唯一的时间关键部分,因此不单独报告各组件的性能结果。
2. 实验结果
2.1 STRIPS域(IPC1 - 3)
不列出单个规划任务的运行时间,而是报告以下总结信息:
- 表格展示每个规划器在300秒超时内未解决的任务数量,按领域分别呈现。
- 图表展示每个规划器在给定时间内解决的任务数量。
| 领域 | G | GP | GP+ | M | MP | F | Any | CG | FF | LPG |
|---|---|---|---|---|---|---|---|---|---|---|
| Blocksworld (35) | 0 | 0 | 0 | 0 | 0 | 17 | 0 | 0 | 4 | 0 |
| Depots (22) | 12 | 13 | 13 | 12 | 8 | 11 | 7 | 14 | 3 | 0 |
| Driverlog (20) | 2 | 0 | 0 | 1 | 0 | 1 | 0 | 3 | 5 | 0 |
| FreeCell IPC2 (60) | 4 | 4 | 12 | 11 | 12 | 40 | 3 | 2 | 3 | 55 |
| FreeCell IPC3 (20) | 0 | 0 | 5 | 1 | 2 | 14 | 0 | 0 | 2 | 19 |
| Grid (5) | 1 | 2 | 1 | 1 | 0 | 4 | 0 | 1 | 0 | 1 |
| Gripper (20) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Logistics IPC1 (35) | 1 | 0 | 0 | 4 | 0 | 26 | 0 | 0 | 0 | 4 |
| Logistics IPC2 (28) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Miconic - 10 - STRIPS (150) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Movie (30) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Mystery (30) | 1 | 2 | 1 | 0 | 0 | 13 | 0 | 1 | 12 | 15 |
| MysteryPrime (35) | 0 | 0 | 0 | 2 | 0 | 14 | 0 | 1 | 3 | 7 |
| Rovers (20) | 2 | 0 | 0 | 0 | 0 | 2 | 0 | 3 | 0 | 0 |
| Satellite IPC3 (20) | 1 | 0 | 0 | 0 | 0 | 6 | 0 | 0 | 0 | 0 |
| Zenotravel (20) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| 总计 (550) | 24 | 21 | 32 | 32 | 22 | 148 | 10 | 25 | 32 | 101 |
结果显示,Fast Downward在该组基准测试中表现出色。与之前的CG相比,半数规划器配置有进一步提升。其中,使用首选操作符的多启发式最佳优先搜索配置除Depots和FreeCell外可解决所有领域的基准任务。所有Fast Downward配置未解决的任务数量仅为10个。聚焦迭代扩展搜索配置在这些基准测试中表现相对较好,但在有许多死胡同或目标排序非常重要的领域以及大型实例领域表现不佳。Depots领域对Fast Downward的各种配置都具有挑战性,可能是因为它不像FF那样使用目标排序技术,且包含类似Blocksworld的子问题,导致因果图非常密集。
graph LR
A[STRIPS域实验] --> B[选择6种规划器配置]
B --> C[应用于基准任务]
C --> D[记录未解决任务数量]
C --> E[记录不同时间解决任务数量]
D --> F[分析各配置性能]
E --> F
Fast Downward规划器性能评估实验解析
2.2 ADL域(IPC1 - 3)
由于CG和公开版本的LPG不支持ADL域,因此仅与FF进行比较。同样报告每个领域未解决的任务数量以及展示任务解决速度的图表。
| 领域 | G | GP | GP+ | M | MP | F | Any | FF |
|---|---|---|---|---|---|---|---|---|
| Assembly (30) | 28 | 27 | 25 | 3 | 0 | 30 | 0 | 0 |
| Miconic - 10 - SimpleADL (150) | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
| Miconic - 10 - FullADL (150) | 9 | 8 | 9 | 9 | 8 | 90 | 6 | 12 |
| Schedule (150) | 134 | 93 | 93 | 132 | 28 | 113 | 25 | 0 |
| 总计 (480) | 171 | 128 | 127 | 144 | 36 | 233 | 31 | 12 |
这些结果不如第一组领域理想。Miconic - 10两个领域的结果较好,甚至优于FF。但贪婪最佳优先搜索在Assembly领域表现极差,所有配置在Schedule领域表现不佳。目前对Assembly领域的表现没有很好的解释。对于Schedule领域,性能不佳似乎与缺少目标排序技术有关。例如,在许多Schedule任务中,同一对象的多个目标必须按特定顺序满足。通过一些基本的手动目标排序(在满足其他所有目标之前忽略绘画目标),带首选操作符的多启发式最佳优先搜索未解决的任务数量从28个降至3个,这三个失败似乎是由于圆柱和抛光对象的剩余排序问题导致的。
graph LR
A[ADL域实验] --> B[仅与FF比较]
B --> C[记录各领域未解决任务数]
B --> D[记录任务解决速度]
C --> E[分析性能问题原因]
D --> E
2.3 IPC4域
对于IPC4域,不与FF比较,因为FF在这些基准测试中的表现不如竞赛中的最佳规划器,且部分IPC4参赛者是FF的扩展或混合系统。选择了除Fast Downward外最成功的四个竞赛参与者(LPG - TD、SGPlan、Macro - FF和YAHSP)进行比较。同样报告每个领域未解决的任务数量以及展示任务解决速度的图表。
| 领域 | G | GP | GP+ | M | MP | F | Any |
|---|---|---|---|---|---|---|---|
| Airport (50) | 28 | 30 | 17 | 18 | 14 | 0 | 0 |
| Pipesworld - NoTankage (50) | 24 | 25 | 23 | 14 | 7 | 10 | 7 |
| Pipesworld - Tankage (50) | 36 | 36 | 36 | 34 | 17 | 34 | 14 |
| Promela - OpticalTelegraph (48) | 48 | 47 | 48 | 47 | 46 | 13 | 13 |
| Promela - Philosophers (48) | 0 | 0 | 0 | 16 | 0 | 21 | 0 |
| PSR - Small (50) | 0 | 0 | 0 | 0 | 0 | 1 | 0 |
| PSR - Middle (50) | 0 | 0 | 0 | 0 | 0 | 22 | 0 |
| PSR - Large (50) | 22 | 20 | 22 | 23 | 22 | 39 | 20 |
| Satellite IPC4 (36) | 8 | 0 | 0 | 8 | 3 | 22 | 0 |
| 总计 (432) | 166 | 158 | 146 | 160 | 109 | 162 | 54 |
| 领域 | FD | FDD | LPG - TD | Macro - FF | SGPlan | YAHSP |
|---|---|---|---|---|---|---|
| Airport (50) | 0 | 0 | 7 | 30 | 6 | 17 |
| Pipesworld - NoTankage (50) | 11 | 7 | 10 | 12 | 0 | 0 |
| Pipesworld - Tankage (50) | 34 | 19 | 29 | 29 | 20 | 13 |
| Promela - OpticalTelegraph (48) | 22 | 22 | 37 | 31 | 29 | 36 |
| Promela - Philosophers (48) | 0 | 0 | 1 | 36 | 0 | 19 |
| PSR - Small (50) | 0 | 0 | 2 | 50 | 6 | 3 |
| PSR - Middle (50) | 0 | 0 | 0 | 19 | 4 | 50 |
| PSR - Large (50) | 22 | 22 | 50 | 50 | 39 | 50 |
| Satellite IPC4 (36) | 0 | 3 | 1 | 0 | 6 | 0 |
| 总计 (432) | 89 | 73 | 137 | 257 | 110 | 188 |
Fast Downward在各领域具有竞争力,在某些领域优于其他规划器。Pipesworld领域是唯一其他规划器明显优于Fast Downward两个竞赛版本的领域,YAHSP在两个Pipesworld领域、SGPlan在Pipesworld - NoTankage领域表现更好。这可能是因为Pipesworld领域的层次结构不明显,因果图启发式的分解方法不太适用。Promela - OpticalTelegraph领域的启发式搜索配置结果极差,需要进一步研究。有趣的是,聚焦迭代扩展搜索在该组部分基准测试中表现出色,原因是IPC4套件的许多任务中有许多易于序列化且可独立解决的单个目标。比较配置G和GP + ,特别是M和MP,发现使用首选操作符对这些基准测试非常有用,甚至比前两个实验更有用。
graph LR
A[IPC4域实验] --> B[选择四个竞赛参与者比较]
B --> C[记录各领域未解决任务数]
B --> D[记录任务解决速度]
C --> E[分析各规划器性能]
D --> E
总结
本次实验对Fast Downward规划器的不同配置在多个领域的性能进行了全面评估。实验结果表明,Fast Downward在大多数情况下表现出色,但在一些特定领域仍存在挑战,如Depots、Assembly、Schedule和Pipesworld等领域。使用首选操作符通常能提高规划器的性能,聚焦迭代扩展搜索在部分任务中有较好表现。未来可以针对这些表现不佳的领域进行深入研究,进一步优化规划器的性能,例如引入更有效的目标排序技术等。
以下是本次实验的关键要点总结:
1.
实验设计
:选择合理的规划器配置,设置合适的实验环境和参数。
2.
基准测试集
:涵盖多个竞赛的不同类型领域,包括STRIPS、ADL和PDDL2.2域。
3.
实验结果
:
-
STRIPS域(IPC1 - 3)
:多数配置表现良好,部分配置有显著提升。
-
ADL域(IPC1 - 3)
:部分领域结果不理想,与目标排序技术有关。
-
IPC4域
:具有竞争力,部分领域需进一步研究。
4.
优化方向
:针对表现不佳的领域,研究引入目标排序技术等优化方法。
超级会员免费看
16

被折叠的 条评论
为什么被折叠?



