规划领域中的基准测试与算法评估
在人工智能领域,经典规划问题从理论上来说具有很高的难度,开发出实用的解决方案算法似乎希望渺茫。然而,自 20 世纪 90 年代以来,像 Graphplan、SATPLAN、HSP 和 FF 等现代规划系统,已经展示出解决大规模规划任务的能力。它们的效率,或者更严谨地说,它们所展现出的效率,与规划问题的理论难度形成了鲜明对比。
1. 规划系统性能评估方法
规划系统通常通过在一系列规划任务上测量运行时间来进行实证评估。在大多数评估中,这些任务并非完全随机生成,而是来自所谓的基准测试领域,这些领域是相关规划任务的集合,通常模仿现实世界的规划活动,如车辆路径规划、车间调度或装配问题。
不过,基准测试领域存在局限性,它们并未涵盖 PDDL 语言可定义的所有规划任务。在深入讨论这些领域之前,有必要思考基于如此受限的实例集来评估规划器是否是一种好的做法。
为了说明这一点,我们将规划问题与经典的数字排序算法问题进行对比。对于排序问题,基于一组任意预定义的“基准序列”来评估算法是不常见的。通常会采用以下两种评估方式:
- 最坏情况评估 :通过确定给定实例规模下的最大运行时间来评估算法。这种评估通常使用渐近 O 和 Θ 符号进行理论分析。
- 平均情况评估 :通过确定或估计给定实例规模下的平均运行时间来评估算法。在某些情况下,可以进行理论分析,但对于更复杂的算法,通常会进行涉及问题空间统计采样的实验研究。
这两种评估方式是通用的算法性能指标,那么它们是否比使用基准测试任务来评估规划器更好呢?实际上,有人认为使用基准测试领域的任务来评估
超级会员免费看
订阅专栏 解锁全文
1074

被折叠的 条评论
为什么被折叠?



