10、多智能体调度与分配问题研究

多智能体调度与分配问题研究

在多智能体系统(MAS)领域,高效的任务和资源分配是一个关键挑战。本文将介绍两种不同的研究,分别是多智能体调度问题的联合均衡策略搜索(JEPS)以及集体迭代分配(CIA)问题。

多智能体调度问题的联合均衡策略搜索(JEPS)

在解决分布式马尔可夫决策过程中的联合均衡学习问题时,JEPS是一种有效的多智能体策略搜索方法。

  • 基准测试结果
    • 智能体工作模式 :给定一个作业车间调度问题(JSSP)实例,所有智能体以反应式方式处理等待作业。即根据当前策略参数确定的概率选择作业,只要有作业等待,智能体就不会闲置。当所有作业完成后,全局奖励 $r = -C_{max}$ 会传达给智能体,然后调用策略更新算法,最后系统重新初始化为未处理任何作业的起始状态。允许智能体最多处理 $\lambda_{max} = 250k$ 个回合,但在大多数情况下,收敛速度要快得多。在所有实验中,设置 $\gamma = 0.1$,这个值能带来较好的结果,不过其优化还需进一步研究。
    • 学习进度对比 :图2展示了使用JEPS和JEPSG在15个涉及10个作业和10台机器的JSSP问题上的平均学习进度。实线表示随机联合策略的平均预期性能(以最大完工时间 $C_{max}$ 衡量,即负奖励)与训练回合数的关系。虚线表示启发式 $H$ 所使用的假定联合均衡 $-r_{max}$ 的值的变化。可以明显看出,JEPSG算法的 $-r_{max}$ 和 $E[-r]$ 曲线比具有局部策略参数化的JEPS更快地接近彼此。对
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值