多智能体学习:原理、挑战与解决方案
引言
在未知环境中运行的智能体的一个关键特性是其从经验中学习的能力。对于单智能体系统,这通常包括构建从智能体的输入(传感器读数和内部状态)到输出(动作)的映射。这种映射的构建取决于许多因素,并且有许多算法已得到广泛研究,如学习自动机、强化学习、神经进化算法和生物启发方法等。
当将这些算法扩展到多智能体学习时,会出现两个新的关键问题:一是智能体如何考虑系统中其他智能体的集体行动;二是智能体如何选择不仅能提供直接利益,还能塑造其他智能体未来行动的行动。这两个问题导致了理论(收敛性)和实际(奖励中的信噪比)方面的复杂性,使得直接应用单智能体学习算法变得困难。
多智能体学习从科学和工程角度来看,都是多智能体系统的基本组成部分。从科学角度,研究学习智能体之间的相互作用可以深入了解许多社会现象;从工程角度,学习智能体为分布式控制问题提供了一种经过概念验证的方法。多智能体系统具有鲁棒性、效率、可重构性和可扩展性等优点,但要实现这些潜在收益,智能体需要相互交互并快速适应不断变化的环境和其他智能体的策略。
多智能体学习的挑战
状态、动作和结果空间问题
学习本质上是在可能的解决方案中进行搜索的问题,因此变量(如智能体、状态、动作、结果状态)数量的增加会使学习任务呈指数级复杂。对于多智能体学习,有三个关键的计算问题:状态空间爆炸、联合动作空间爆炸和结果状态(或结果状态)爆炸。这三个问题被统称为三个“维度诅咒”,它们在所有学习方法中都存在,因为它们是由在随机和动态环境中的大空间中搜索解决方案的过程引起的。具体如下表所示:
|问题|描述|影响|
|----|----|----|
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



