多智能体调度问题的联合均衡策略搜索
在多智能体系统中,如何高效地找到联合均衡策略是一个关键问题。本文将介绍两种用于多智能体调度问题的联合均衡策略搜索算法:JEPS(Joint Equilibrium Policy Search)和 JEPSG(JEPS with Global Action Parameterization),并探讨它们在作业车间调度问题中的应用。
1. 联合均衡策略搜索(JEPS)
JEPS 是一种分布式的纯策略搜索算法,它基于去中心化马尔可夫决策过程(DEC - MDP)。
1.1 基础知识
- DEC - MDP 定义 :一个 m 智能体的 DEC - MDP M 由元组 ⟨Ag, S, A, P, R, Ω, O⟩ 定义。其中,Ag 是智能体集合,S 是世界状态集合,A 是联合动作集合,P 是转移函数,R 是奖励函数。
- 局部状态和动作 :每个智能体 i 有自己的局部状态 si 和局部动作 ai,且只能获取自己的局部信息。
- 动作集变化 :假设局部动作集 Ai 随时间变化,智能体 i 的局部状态 si 可由当前可选动作集描述。
- 状态转移依赖 :区分依赖和独立的局部动作,我们关注非转移独立场景,且一个智能体的局部动作最多影响另一个智能体的局部状态。
1.2 学习联合策略
JEPS 中所有智能体的策略是随机的,依赖于特定状态的概率向量。
- <
超级会员免费看
订阅专栏 解锁全文
1153

被折叠的 条评论
为什么被折叠?



