算法性能评估与智能体学习研究
1 语法遗传编程算法的标准化评估指标
在算法评估中,不同的问题可能适合具有不同特性的算法,而当前的评估标准可能无法全面衡量这些算法。为了解决这一问题,提出了一套标准化的五项指标,并通过对三种算法进行基准测试比较来展示这些指标的作用。
1.1 五项评估指标
- 成功率(Success Rate) :这是一个百分比指标,表示算法在已知完整适应度的问题上能够产生完整适应度结果的频率。对于未知完整适应度的问题,建议使用阈值水平,达到或超过该阈值的实验被视为成功。例如,在Santa Fe Trail(SFT)测试中,GE的成功率最高;而在Hampton Court Maze(HCM)测试中,sGE的成功率超过了GE和GH。但在Los Altos Hills Trail(LAT)测试中,三种算法都未能产生完整适应度的解决方案。具体数据如下表所示:
| 算法 | Santa Fe Trail(%) | Los Altos Hills Trail(%) | Hampton Court Maze(%) |
| — | — | — | — |
| GH | 6.21 | 0 | 4.87 |
| GE | 32.95 | 0 | 2.41 |
| sGE | 3.25 | 0 | 8.94 | - 平均适应度(Average Fitness) :即使在看似简单的问题中,完整适应度的解决方案也可能很少被找到。在某些情况下,了解典型的“平均适应度”可能更有帮助。例如,在SFT测试中,sGE的平均适应度高于GH,但GE