多智能体POMDP中的执行时间通信决策:该传达什么?
1. 引言
近年来,多智能体部分可观测马尔可夫决策过程(POMDP)成为了一种流行的决策理论框架,用于为多智能体团队的控制进行建模和生成策略。多智能体POMDP控制的团队可以通过通信来共享观测信息并进行协调,因此需要相应的策略让团队能够对通信进行推理。以往关于多智能体POMDP通信策略的研究主要集中在何时进行通信,而本文则聚焦于该传达什么信息。
生成多智能体POMDP的最优策略是NEXP完全问题,这使得精确求解变得难以实现,因此近期的研究大多致力于寻找启发式算法,以便在合理的时间内为多智能体团队生成高质量的策略。团队成员可以通过共享本地观测信息来提升自身和队友对环境的推理能力。我们主要研究执行时间通信决策的启发式方法,在策略生成阶段假设通信是免费的,这样就能使用单智能体POMDP求解器为多智能体团队生成集中式策略,然后在执行时间对通信进行推理,以实现这些策略的分布式执行。
在通信免费且无限制的情况下,每个智能体将其所有观测信息广播给队友是最佳策略。但通常情况下,通信是有成本的。为了有效利用通信,多智能体团队需要权衡通信带来的收益和成本。我们考虑两种通信范式:
- 每次通信固定成本 :每次智能体决定通信时,都会产生一个已知的固定成本。通信启发式方法需要解决的核心问题是何时进行通信。在一些先前的方法中,使用这种范式专注于何时通信的问题,当智能体认为通信有益时,就会要求它们传达整个观测历史。本文将这种范式扩展到成本随通信信息量增加而增加的情况,假设每次传输一个观测信息有固定成本。
- 有限通信带宽 :智能体之间的通信通常有严格的带宽限制。
超级会员免费看
订阅专栏 解锁全文
1203

被折叠的 条评论
为什么被折叠?



