非马尔可夫环境中构建精确策略的实验研究
1. 实验设置
在实验里,每次会向系统提交 20000 个连续的问题。对于每个问题,会将智能体随机放置在迷宫的空闲方格上,当满足以下两个条件之一时,试验停止:
- 智能体在迷宫中的位置与食物的位置相同。
- 智能体所走的步数超过特定阈值(MaxSteps,在所有展示的结果中均为 50 步)。
当问题解决后,会记录智能体到食物的起始距离、最终距离以及总步数。本文展示的 APCS 和 XCS 结果均是 10 次实验的平均值。
系统接收的信号是一个 16 位的字符串,它代表智能体周围的 8 个方格。这些方格按顺时针方向编码,从北方开始:(00) 表示空单元格,(11) 表示食物,(10) 表示障碍物。因此,分类器的传感器部分也包含 16 个位置,传感器的每个位置可以随机由 0、1 或通配符 (#) 占据。执行器部分由一个 3 位的字符串编码,表示智能体可用的 8 个方向之一,同样按顺时针方向编码。
XCS 使用的特定设置与 Lanzi 在 1999 年的实验相同。对于 APCS,每个评估组(即个体)控制一个智能体。在实验期间,每个组会异步处理 20000 个问题,当所有评估组至少解决 20000 个问题时,实验停止。在 K 次试验中,会测量每次的移动次数。
以下是本研究使用的适应度函数的算法视图:
if (next positionIj = food)
RewardIj ← RewardIj + 1.0 / K
else if (next positionIj = obstacle)
超级会员免费看
订阅专栏 解锁全文
663

被折叠的 条评论
为什么被折叠?



