多智能体调度与分配问题研究
在多智能体系统(MAS)领域,高效的任务和资源分配是一个关键挑战。本文将介绍两种不同的研究,分别是多智能体调度问题的联合均衡策略搜索(JEPS)以及集体迭代分配(CIA)问题。
多智能体调度问题的联合均衡策略搜索(JEPS)
在解决分布式马尔可夫决策过程中的联合均衡学习问题时,JEPS是一种有效的多智能体策略搜索方法。
- 基准测试结果
- 智能体工作模式 :给定一个作业车间调度问题(JSSP)实例,所有智能体以反应式方式处理等待作业。即根据当前策略参数确定的概率选择作业,只要有作业等待,智能体就不会闲置。当所有作业完成后,全局奖励 $r = -C_{max}$ 会传达给智能体,然后调用策略更新算法,最后系统重新初始化为未处理任何作业的起始状态。允许智能体最多处理 $\lambda_{max} = 250k$ 个回合,但在大多数情况下,收敛速度要快得多。在所有实验中,设置 $\gamma = 0.1$,这个值能带来较好的结果,不过其优化还需进一步研究。
- 学习进度对比 :图2展示了使用JEPS和JEPSG在15个涉及10个作业和10台机器的JSSP问题上的平均学习进度。实线表示随机联合策略的平均预期性能(以最大完工时间 $C_{max}$ 衡量,即负奖励)与训练回合数的关系。虚线表示启发式 $H$ 所使用的假定联合均衡 $-r_{max}$ 的值的变化。可以明显看出,JEPSG算法的 $-r_{max}$ 和 $E[-r]$ 曲线比具有局部策略参数化的JEPS更快地接近彼此。对
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



