16、多智能体系统开发:学习与集成环境的探索

多智能体系统开发:学习与集成环境的探索

智能体行为编程学习的挑战与成果

在利用学习技术进行自动智能体行为编程的研究中,起初我们认为反馈函数至关重要,而智能体感知和动作集的设计基本由环境模型决定。然而,实际情况表明,智能体感知和动作设计的自由度对学习性能有着重大影响。同时,学习者的参数设定也并非易事,不过在我们的研究中,标准设置起到了作用。

尽管面临诸多挑战,我们还是找到了一种解决方案,通过特定的感知和动作集,实现了以出口为导向的预期行为。这种以出口为导向的动作设计,使行为模式更加聚焦,同时还能实现避障行为。其他包含更多转向和移动动作、增加感知以及改变反馈函数的配置,也取得了与替代设置类似的结果。这表明,为了实现成功的学习,必须提供足够的先验知识。

在机器学习领域,学习偏差不仅存在于学习系统本身,还受所使用的表示方式影响。在疏散场景中,学习者需要有足够的信息来推断任务。因此,反馈必须足够及时,动作编码要以出口为导向。一般来说,行人知道出口位置且明白朝出口移动通常是有效的,所以当学习目的是形成特定的出口策略时,不能期望学习机制从头开始学习这些事实。

将模型组合的目的是促进智能体建模。使用学习分类器系统(LCS)在一定程度上把基本问题从直接的行为建模转移到了设计智能体接口和环境奖励计算的挑战上。要成功做到这一点,需要对问题难度和机器学习技术有全面的理解。我们将学习问题构建为强化学习(RL)问题,只提供基于奖励的反馈。在这类问题领域中,有两个方面尤其具有挑战性:
1. 延迟奖励 :延迟奖励会促使形成长奖励链,这会显著降低学习速度,并且对在线泛化的RL系统(如LCS)构成强大的学习挑战。
2.

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值