多智能体系统开发:学习与集成环境的探索
智能体行为编程学习的挑战与成果
在利用学习技术进行自动智能体行为编程的研究中,起初我们认为反馈函数至关重要,而智能体感知和动作集的设计基本由环境模型决定。然而,实际情况表明,智能体感知和动作设计的自由度对学习性能有着重大影响。同时,学习者的参数设定也并非易事,不过在我们的研究中,标准设置起到了作用。
尽管面临诸多挑战,我们还是找到了一种解决方案,通过特定的感知和动作集,实现了以出口为导向的预期行为。这种以出口为导向的动作设计,使行为模式更加聚焦,同时还能实现避障行为。其他包含更多转向和移动动作、增加感知以及改变反馈函数的配置,也取得了与替代设置类似的结果。这表明,为了实现成功的学习,必须提供足够的先验知识。
在机器学习领域,学习偏差不仅存在于学习系统本身,还受所使用的表示方式影响。在疏散场景中,学习者需要有足够的信息来推断任务。因此,反馈必须足够及时,动作编码要以出口为导向。一般来说,行人知道出口位置且明白朝出口移动通常是有效的,所以当学习目的是形成特定的出口策略时,不能期望学习机制从头开始学习这些事实。
将模型组合的目的是促进智能体建模。使用学习分类器系统(LCS)在一定程度上把基本问题从直接的行为建模转移到了设计智能体接口和环境奖励计算的挑战上。要成功做到这一点,需要对问题难度和机器学习技术有全面的理解。我们将学习问题构建为强化学习(RL)问题,只提供基于奖励的反馈。在这类问题领域中,有两个方面尤其具有挑战性:
1. 延迟奖励 :延迟奖励会促使形成长奖励链,这会显著降低学习速度,并且对在线泛化的RL系统(如LCS)构成强大的学习挑战。
2.
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



