多智能体强化学习:邻域Q学习与一维伊辛模型
1. 多智能体强化学习的挑战
多智能体强化学习(MARL)面临着一个关键问题,即联合动作空间的指数级增长。当每个智能体有一定数量的动作选择时,多个智能体的联合动作空间大小会随着智能体数量的增加而呈指数级增长。例如,如果每个智能体的动作空间大小为4(用一个4元素的独热向量表示),那么两个智能体的联合动作空间大小就是 $4^2 = 16$,$N$ 个智能体的联合动作空间大小就是 $4^N$。这种指数级增长使得算法难以扩展,对于大量智能体来说,计算和存储联合动作空间变得不可行。
| 智能体数量 | 联合动作空间大小(动作空间为4) |
|---|---|
| 1 | 4 |
| 2 | 16 |
| 3 | 64 |
| 4 | 256 |
| … | … |
| N | $4^N$ |
2. 邻域Q学习
为了解决联合动作空间指数级增长的问题,我们可以采用邻域Q学习(Neighborhood Q-learning)方法。该方法的核心思想是,
超级会员免费看
订阅专栏 解锁全文
35

被折叠的 条评论
为什么被折叠?



