16、多智能体POMDP中的执行时间通信决策:该传达什么?

多智能体POMDP中的执行时间通信决策:该传达什么?

1. 引言

近年来,多智能体部分可观测马尔可夫决策过程(POMDP)成为了一种流行的决策理论框架,用于为多智能体团队的控制进行建模和生成策略。多智能体POMDP控制的团队可以通过通信来共享观测信息并进行协调,因此需要相应的策略让团队能够对通信进行推理。以往关于多智能体POMDP通信策略的研究主要集中在何时进行通信,而本文则聚焦于该传达什么信息。

生成多智能体POMDP的最优策略是NEXP完全问题,这使得精确求解变得难以实现,因此近期的研究大多致力于寻找启发式算法,以便在合理的时间内为多智能体团队生成高质量的策略。团队成员可以通过共享本地观测信息来提升自身和队友对环境的推理能力。我们主要研究执行时间通信决策的启发式方法,在策略生成阶段假设通信是免费的,这样就能使用单智能体POMDP求解器为多智能体团队生成集中式策略,然后在执行时间对通信进行推理,以实现这些策略的分布式执行。

在通信免费且无限制的情况下,每个智能体将其所有观测信息广播给队友是最佳策略。但通常情况下,通信是有成本的。为了有效利用通信,多智能体团队需要权衡通信带来的收益和成本。我们考虑两种通信范式:
- 每次通信固定成本 :每次智能体决定通信时,都会产生一个已知的固定成本。通信启发式方法需要解决的核心问题是何时进行通信。在一些先前的方法中,使用这种范式专注于何时通信的问题,当智能体认为通信有益时,就会要求它们传达整个观测历史。本文将这种范式扩展到成本随通信信息量增加而增加的情况,假设每次传输一个观测信息有固定成本。
- 有限通信带宽 :智能体之间的通信通常有严格的带宽限制。

感应异步电机转子磁场定向控制基于模型参考自适应观测器(MRAS)+模数最优法整定电流环和对称最优法整定速度环的无感算法(Simulink仿真实现)内容概要:本文介绍了感应异步电机转子磁场定向控制的无感算法,结合模型参考自适应观测器(MRAS)实现转速和磁链的在线估计,省去机械传感器,提升系统可靠性。控制系统采用经典的双闭环结构,其中电流环通过模数最优法进行PI参数整定,以获得快速响应和良好稳定性;速度环则采用对称最优法进行调节器设计,增强抗干扰能力和动态性能。整个控制策略在Simulink环境中完成建模与仿真,验证了其在无位置传感器条件下仍能实现高性能调速的可行性。; 适合人群:自动化、电气工程及相关专业的研究生、高校科研人员以及从事电机控制、电力电子与运动控制领域的工程技术人员。; 使用场景及目标:①用于研究无速度传感器电机控制技术,特别是MRAS在转速辨识中的应用;②掌握模数最优法与对称最优法在电流环和速度环PI参数整定中的设计流程与工程实践;③通过Simulink仿真平台复现先进控制算法,服务于教学实验、科研项目或工业原型开发。; 阅读建议:建议读者结合Simulink模型同步学习,重点关注MRAS观测器的构建原理、PI参数整定的理论推导与仿真验证环节,同时可进一步拓展至参数鲁棒性分析与实际硬件实现。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值