12、非马尔可夫环境中构建精确策略的实验研究

非马尔可夫环境中构建精确策略的实验研究

1. 实验设置

在实验里,每次会向系统提交 20000 个连续的问题。对于每个问题,会将智能体随机放置在迷宫的空闲方格上,当满足以下两个条件之一时,试验停止:
- 智能体在迷宫中的位置与食物的位置相同。
- 智能体所走的步数超过特定阈值(MaxSteps,在所有展示的结果中均为 50 步)。

当问题解决后,会记录智能体到食物的起始距离、最终距离以及总步数。本文展示的 APCS 和 XCS 结果均是 10 次实验的平均值。

系统接收的信号是一个 16 位的字符串,它代表智能体周围的 8 个方格。这些方格按顺时针方向编码,从北方开始:(00) 表示空单元格,(11) 表示食物,(10) 表示障碍物。因此,分类器的传感器部分也包含 16 个位置,传感器的每个位置可以随机由 0、1 或通配符 (#) 占据。执行器部分由一个 3 位的字符串编码,表示智能体可用的 8 个方向之一,同样按顺时针方向编码。

XCS 使用的特定设置与 Lanzi 在 1999 年的实验相同。对于 APCS,每个评估组(即个体)控制一个智能体。在实验期间,每个组会异步处理 20000 个问题,当所有评估组至少解决 20000 个问题时,实验停止。在 K 次试验中,会测量每次的移动次数。

以下是本研究使用的适应度函数的算法视图:

if (next positionIj = food)
    RewardIj ← RewardIj + 1.0 / K
else if (next positionIj = obstacle)
    
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值