
多智能体强化学习
文章平均质量分 63
条件反射104
中国科学院大学自动化研究所
展开
-
多智能体强化学习论文——ASN(ICLR 2020)
文章目录论文:ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS存在的问题&研究动机&研究思路创新点算法框图实验some points论文:ACTION SEMANTICS NETWORK: CONSIDERING THE EFFECTS OF ACTIONS IN MULTIAGENT SYSTEMS存在的问题&研究动机&研究思路自然界中的多智能体协作任原创 2021-10-21 20:32:08 · 918 阅读 · 0 评论 -
StarCraft Multi-Agent Challenge (SMAC)——多智能体强化学习仿真benchmark
StarCraft包括Macromanagement和Micromanagement。其中macro包括宏观和微观的操作,是选手级别的,目的在于赢得完整的比赛胜利;而micro仅包含微观的操作,用于训练和验证marl算法。SMAC基于的是StarCraft II Learning Environment(PySC2)和StarCraft II 的API搭建的平台,PySC2和SMAC二者的区别为:SMAC平台的的相关信息:https://github.com/oxwhirl/smac/blob/ma.原创 2021-10-20 15:56:27 · 2267 阅读 · 0 评论 -
多智能体强化学习论文——RODE
文章目录论文:RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS存在的问题&研究动机&研究思路创新点算法框图some points论文:RODE: LEARNING ROLES TO DECOMPOSE MULTI-AGENT TASKS存在的问题&研究动机&研究思路将复杂任务基于角色分解会有较好的scalable,但是角色如何学习(如何分组)是不好实现的。作者基于动作的效果将智能体进行分组,将动作空间分解。创原创 2021-10-13 21:01:06 · 805 阅读 · 0 评论 -
多智能体强化学习论文——ROMA
文章目录论文:ROMA: Multi-Agent Reinforcement Learning with Emergent Roles存在的问题&研究动机&研究思路创新点算法框图some points论文:ROMA: Multi-Agent Reinforcement Learning with Emergent Roles存在的问题&研究动机&研究思路ROMA提出智能体的策略是建立在智能体角色上的。智能体的角色是由智能体的局部观测值决定的随机变量,有相似职责的智能原创 2021-10-13 17:03:58 · 1150 阅读 · 2 评论 -
多智能体强化学习论文——MAVEN
存在的问题&研究动机&研究思路Qmix的monotonic约束,导致算法得到局部最优解。文章给出了证明。在单体强化学习任务中,可以通过动态调整ϵ\epsilonϵ的大小使探索更充分,然而多体中无法使用。MAVEN为了解决探索问题,引入了分层控制的隐空间。创新点通过隐策略产生隐空间变量zzz,在一个episode固定相关参数θ\thetaθ,ϕ\phiϕ,ψ\psiψ,产生Wz,aW_{z,a}Wz,a来增加每个智能体的探索。属于分层的控制。在每一个时间步t,最大化轨迹τ\原创 2021-10-13 14:23:04 · 940 阅读 · 0 评论 -
多智能体强化学习论文——LSC
存在的问题&研究动机&研究思路创新点算法框图实验some points原创 2021-10-08 15:13:00 · 334 阅读 · 1 评论 -
多智能体强化学习论文——DyMA-CL(AAAI 2020)
存在的问题&研究动机&研究思路创新点算法框图some points原创 2021-09-23 23:42:48 · 861 阅读 · 0 评论 -
多智能体强化学习论文——QPLEX
存在的问题&研究动机&研究思路对于CTDE框架下的多智能体值方法,joint greedy action应该等于每个个体的greedy action的集合,即IGM原则。VDN和QMIX提出的联合效用函数与单体效用函数的相加性和单调性。创新点提出了advantage-based IGM,将IGM的动作值函数一致性约束转化为优势函数的一致性约束。一致性约束的好处是,它可以通过限制优势函数的取值范围,直接实现其一致性约束。最终的QtotQ_{tot}Qtot可以写为:等式原创 2021-09-23 11:03:18 · 849 阅读 · 0 评论 -
多智能体强化学习论文——G2ANet(AAAI 2020)
存在的问题&研究动机&研究思路创新点算法框图实验some points原创 2021-09-22 10:08:40 · 1437 阅读 · 1 评论 -
多智能体强化学习论文——ATOC(NIPS 2018)
存在的问题&研究动机&研究思路在多智能体协作任务中,智能体通信是一种有效方式。但是智能体数量很多的时候,对某个智能体来说,他很难确定哪些信息是有价值的,这使得通信效果大打折扣甚至起副作用。在真实世界中,通信需要消耗高带宽和计算复杂度。预先定义的通信机制有可能会限制通信的效果和抑制一些潜在的协作策略。创新点算法框图实验some points...原创 2021-09-17 16:01:33 · 1688 阅读 · 1 评论 -
多智能体强化学习论文——HAMA(AAAI 2020)
存在的问题&研究动机&研究思路目前的多智能体强化学习任务主要集中在得到一个分散式的协作的策略来最大化集体奖励。这样模型的可扩展性较差,不能用到更复杂的多智能体任务。目前多数模型用于纯协作或者纯竞争的环境,无法应用于混合式的环境。CTDE的框架有维度灾难*的问题,当智能体数量增加,critic的训练将会变得很难。最基本的问题还是,当前很多训练好的模型无法被迁移到 有不同数量的智能体,且不同智能体有不同的目标的任务。即可迁移性较差。创新点算法框图实验...原创 2021-09-13 23:12:43 · 1368 阅读 · 3 评论 -
多智能体强化学习论文——SEAC(NIPS 2020)
存在的问题&研究动机&研究思路在稀疏奖励的环境下,多智能体的exploration存在效率不足等问题。在IAC的基础上尝试加入重要性采样,使得每次更新智能体iii的参数时,不再仅仅使用智能体iii的数据,而是使用所有智能体的数据进行智能体iii数据的更新。对于原始的IAC算法是on-policy的,而SEAC则是off-poligy的。创新点在每个智能体iii的actoriactor_iactori和criticicritic_icritici的更新过程中,都加入了重要性原创 2021-09-12 17:23:03 · 1076 阅读 · 2 评论 -
多智能体强化学习论文——SePS(ICML 2021)
存在的问题&研究动机&研究思路参数共享作为多智能体里面的基本范式,但是其效果依赖于环境和智能体的奖励,当这些项不同的时候,naive的参数共享就变得不那么有效。文章将每个智能体编码到新的嵌入空间中,然后将无监督聚类应用到嵌入空间中。创新点通过VAE,在RL训练之前,通过buffer里面的数据学习一个隐空间z。VAE的目的不是确保动态估计下一状态的观测值和奖励的准确性,而是使用学习到的隐空间z来做无监督的分组,得到一个静态的分组,组内使用参数共享。随后再进行强化学习训练。SeP原创 2021-09-11 10:54:47 · 570 阅读 · 4 评论 -
多智能体强化学习论文——MAAC
存在的问题&研究动机&研究思路多智能体值函数逼近,本质上来说是一个多任务回归问题。MAAC从当前策略中采样动作值,儿MADDPG从replay buffer中抽样更新(容易造成overgeneralization)。通过注意力计算的模型,可以使得每个智能体不需要相同的动作空间,也不需要全局的reward,并且动态的关注其他智能体(αi\alpha_iαi动态变化)。这一切可以通过一个智能体iii的编码eie_iei和其他智能体对智能体iii的影响xix_ixi,concaten原创 2021-09-03 11:57:24 · 3190 阅读 · 0 评论 -
多智能体强化学习论文——COMA
存在的问题&研究动机&研究思路遵循CTDE框架。是大规模多智能体训练的常见的范式,训练过程可以使用模拟器的全局状态信息,但是执行过程每个智能体只能依赖于自身的动作-观测值历史(常用循环神经网络来处理history)。在协作的环境中,多智能体面临信誉分配的问题。联合动作产生的全局reward并不能让每个智能体很好的推断出自己对全局的贡献。为了解决信誉分配问题,提出了反事实基准:固定其他智能体的动作,边缘化某个智能体的动作。在agent之间传递梯度和参数共享,是两种常用于发挥集中式cr原创 2021-08-31 11:43:24 · 1725 阅读 · 0 评论 -
多智能体强化学习论文——QMIX
QMIX: Monotonic Value Function Factorisation for Deep Multi-Agent Reinforcement LearningDeep Multi-Agent Reinforcement Learning存在的问题&研究动机&研究思路利用额外状态信息学习联合动作价值的策略是一种attractive的方式,但分散式的策略尚不清晰,因此提出QMIX。在部分可观测的情况下,只能依靠每个智能体历史的局部观测信息进行决策。分散式的策略可以通原创 2021-08-18 14:27:59 · 1119 阅读 · 0 评论 -
多智能体深度强化学习 经典算法框架(入门)
原创 2021-08-17 10:41:55 · 3344 阅读 · 0 评论 -
基于图神经网络的多智能体深度强化学习
# 摘要在大规模的多智能体系统中,由于智能体数量大,智能体之间相互博弈的关系复杂,给策略学习带来了很大的困难。因此如何通过建模来简化多智能体的学习过程是一项重要的研究课题。在绝大多数的多智能体系统中,智能体之间的交互往往只发生在局部,因此不需要每个智能体一直与其他所有智能体都进行交互。传统的方法试图通过定义的规则来使得多智能体之间进行交互,但智能体之间的交互有时是非常复杂的,不能直接转化成规则。因此,近期有许多工作是将多智能体建模为图,通过图卷积等方法,在引入注意力机制的情况下,使得多个智能体能够很好的交原创 2021-08-12 18:44:17 · 5044 阅读 · 1 评论