
多智能体强化学习
文章平均质量分 94
资源存储库
不积跬步,无以至千里!感谢您的支持!!!
展开
-
【综述】【博弈论视角下的多智能体强化学习综述】
(Schmidhuber,,2015),它可以在高维数据中找到解纠缠的表示(Bengio,,2009),这使得软件能够训练自己执行新任务,而不仅仅是依靠程序员来设计手工制作的规则。这个博弈的纳什均衡(NE)是(rush,yield)和(yield,rush)。的进步以AlphaGo系列(Silver et al.,, 2016, 2017, 2018)的显着成功为标志,这是一个自学成才的RL代理,击败了游戏GO的顶级职业玩家,该游戏的搜索空间( 10761 可能的游戏)甚至大于宇宙中的原子数量。原创 2024-03-31 10:57:17 · 1467 阅读 · 0 评论 -
【CollaQ】【通过奖励归因分解实现多智能体协作】
通过奖励归因分解实现多智能体协作Abstract 摘要borative-learningself-termulti-gentewardttribution多智能体强化学习 (MARL) 的最新进展在《雷神之锤 3》和《Dota 2》等游戏中实现了超人的表现。不幸的是,这些技术需要比人类多几个数量级的训练回合,并且可能无法推广到略微改变的环境或新的智能体配置(即临时团队游戏)。在这项工作中,我们提出了协作Q学习(CollaQ),它可以在星际争霸多智能体挑战中实现最先进的性能,并支持临时团队游戏。原创 2024-03-31 00:32:27 · 776 阅读 · 0 评论 -
【综述】【多智能体系统的深度强化学习:挑战、解决方案和应用回顾】
1][2][3][4][5]Q-learninget al.[6]Fig. 1强化学习是由桑代克在 1898 年对猫的行为进行实验的试错 (TE) 程序引发的[1]。1954年,明斯基[2]设计了第一台名为随机神经模拟强化计算器(SNARC)的神经计算机,它模拟了老鼠的大脑来解决迷宫难题。SNARC 指出 TE 学习提升到一个计算期。近二十年后,Klopf[3]将心理学中的时间差分 (TD) 学习机制整合到 TE 学习的计算模型中。这种集成成功地使 TE 学习成为大型系统的可行方法。原创 2024-03-30 22:48:56 · 1514 阅读 · 0 评论 -
【综述】【合作式多智能体深度强化学习研究进展】
近年来,深度强化学习在多智能体系统中取得了重大进展。在这篇综述文章中,我们重点介绍了多智能体强化学习(MARL)算法的最新方法。特别是,我们重点介绍了五种关于建模和解决合作多智能体强化学习问题的常见方法:(I)独立学习者,(II)完全可观察的批评家,(III)价值函数分解,(IV)共识,以及(IV)学习沟通。首先,我们在相关论文中详细阐述了这些方法、可能的挑战以及如何缓解这些挑战。如果适用,我们会进一步在每个类别的不同论文之间建立联系。接下来,我们将介绍MARL中一些新兴的研究领域以及相关的近期论文。原创 2024-03-30 21:55:18 · 1433 阅读 · 0 评论 -
【综述】【多智能体强化学习:理论和算法的选择性概述】
Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms多智能体强化学习:理论和算法的选择性概述https://arxiv.org/abs/1911.10635v1Abstract摘要Recent years have witnessed significant advances in reinforcement learning (RL), which ha原创 2024-03-30 21:16:18 · 1126 阅读 · 0 评论 -
【综述】【多智能体深度强化学习的综述与评论】
A survey and critique of multiagent deep reinforcement learning多智能体深度强化学习的综述与评论Abstract摘要Deep reinforcement learning (RL) has achieved outstanding results in recent years. This has led to a dramatic increase in the number of applications and原创 2024-03-30 20:45:03 · 792 阅读 · 0 评论 -
MAPPO:PPO在合作多智能体博弈中的惊人效果
Abstract 摘要 Proximal Policy Optimization (PPO) is a ubiquitous on-policy reinforcement learning algorithm but is significantly less utilized than off-policy learning algorithms in multi-agent settings. This is often due to the belief that PPO is sig原创 2024-03-30 19:52:35 · 1792 阅读 · 0 评论 -
MARL:【多智能体强化学习的参与者-注意力-批评家】
Actor-Attention-Critic for Multi-Agent Reinforcement Learning多智能体强化学习的参与者-注意力-批评家Abstract摘要Reinforcement learning in multi-agent scenarios is important for real-world applications but presents challenges beyond those seen in single-agent set原创 2024-03-30 19:27:12 · 1153 阅读 · 0 评论 -
【一种多目标强化学习和策略自适应的通用算法】
我们的算法基于两个关键见解-(1)具有偏好的Bellman方程[10]的广义版本的最优性算子是有效的收缩,以及(2)优化多目标Q值的凸包络确保偏好和相应的最优策略之间的有效对齐。IRL是有效的,当隐藏的偏好是固定的,专家的示范是可用的。我们修改了OpenAI gym的开源环境[37],以提供编码五个不同目标的矢量化奖励:x-pos:对应于当前和最后一个时间点之间马里奥水平位置差异的值,时间:一个小的负时间惩罚,死亡:每次马里奥死亡时给予一个巨大的负面惩罚,硬币:收集硬币的奖励,敌人:消灭敌人的奖励。原创 2024-03-30 15:52:36 · 1312 阅读 · 0 评论 -
SQDDPG:解决全局奖励游戏的局部奖励方法
Shapley Q-value: A Local Reward Approach to Solve Global Reward GamesShapley Q-value:解决全局奖励游戏的局部奖励方法https://arxiv.org/abs/1907.05707Abstract 摘要Cooperative game is a critical research area in the multi-agent reinforcement learning (MARL).原创 2024-03-30 14:35:02 · 793 阅读 · 0 评论 -
星际争霸多智能体挑战赛(SMAC)
目录The StarCraft Multi-Agent Challenge星际争霸多智能体挑战赛Abstract摘要1 Introduction1 引言2 Related Work2 相关工作3 Multi-Agent Reinforcement Learning3 多智能体强化学习Dec-POMDPs12-POMDPs(十二月-POMDP)Centralised training with decentralised execution集中式培训与原创 2024-03-30 12:18:43 · 1868 阅读 · 0 评论 -
QTRAN:学习因式分解与转换以实现合作式多智能体强化学习
QTRAN: Learning to Factorize with Transformation forCooperative Multi-Agent Reinforcement learningQTRAN:学习因式分解与转换以实现合作式多智能体强化学习Abstract摘要We explore value-based solutions for multi-agent reinforcement learning (MARL) tasks in the centraliz原创 2024-03-30 12:01:48 · 1115 阅读 · 0 评论 -
PettingZoo:多智能体强化学习的标准API
本文介绍了PettingZoo库及其附带的Agent Environment Cycle(“AEC”)博弈模型。PettingZoo是一个包含多种多代理环境集的库,具有通用的、优雅的Python API。PettingZoo的开发目标是加速多智能体强化学习(“MARL”)的研究,通过使工作更具互换性、可访问性和可重复性,类似于OpenAI的Gym库为单智能体强化学习所做的工作。PettingZoo的API虽然继承了Gym的许多功能,但在MARL API中是独一无二的,因为它基于新颖的AEC游戏模型。原创 2024-03-30 10:56:21 · 1167 阅读 · 0 评论 -
协作任务中多Agent深度强化学习算法的基准测试
Benchmarking Multi-Agent Deep Reinforcement Learning Algorithms in Cooperative Tasks协作任务中多Agent深度强化学习算法的基准测试Abstract摘要Multi-agent deep reinforcement learning (MARL) suffers from a lack of commonly-used evaluation tasks and criteria, making compar原创 2024-03-29 23:18:25 · 1154 阅读 · 0 评论 -
【A2C】深度强化学习的异步方法
深度强化学习的异步方法2016年2月4日提交Abstract摘要我们提出了一个概念上简单且轻量级的深度强化学习框架,该框架使用异步梯度下降来优化深度神经网络控制器。我们提出了四种标准强化学习算法的异步变体,并表明并行演员学习者对训练具有稳定作用,允许所有四种方法成功训练神经网络控制器。性能最好的方法是Actor-Critic的异步变体,它超越了Atari领域的当前最先进技术,同时在单个多核CPU而不是GPU上训练一半的时间。原创 2024-03-29 23:00:14 · 926 阅读 · 0 评论 -
QMIX:用于深度多智能体强化学习的单调值函数分解
QMIX:用于深度多智能体强化学习的单调值函数分解Abstract 摘要在许多现实世界中,一组代理必须协调他们的行为,同时以分散的方式行事。与此同时,通常可以在模拟或实验室环境中以集中方式训练代理,其中可以获得全局状态信息并解除通信约束。学习以额外状态信息为条件的联合动作值是利用集中式学习的一种有吸引力的方法,但提取分散式策略的最佳策略尚不清楚。我们的解决方案是QMIX,这是一种新颖的基于价值的方法,可以以集中的端到端方式训练分散的策略。原创 2024-03-29 11:42:32 · 1694 阅读 · 0 评论 -
【 IQL】【基于深度强化学习的多智能体合作与竞争】
然而,这是一个开放的研究领域,多智能体无模型强化学习算法的理论保证是稀缺的,并且仅限于特定类型的任务[Sch 14,BBDS 08]。在这项工作中,我们使用这种方法,因为它的简单性,分散的性质,计算速度,并能够产生一致的结果,我们报告的任务范围。第一个观察结果是,智能体预测的Q值是乐观的,在大多数情况下,两个玩家都预测未来的奖励是积极的。图2:竞争代理在训练期间的行为演变。两个同样熟练的智能体的现实奖励期望应该在零左右,但在大多数游戏情况下,我们的两个深度Q网络预测的奖励接近0.5(图3,补充视频)。原创 2024-03-29 11:02:05 · 650 阅读 · 0 评论 -
【VDN】【基于价值分解网络的多智能体协同学习】【Value-Decomposition Networks For Cooperative Multi-Agent Learning】
基于价值分解网络(VDN)的多智能体协同学习2017年6月16日提交Abstract 摘要研究了具有单一联合奖励信号的。这类学习问题是困难的,因为通常很大的组合动作和观察空间。在完全集中和分散的方法中,我们发现了虚假奖励的问题和我们称之为“懒惰代理”问题的现象,这是由于部分可观测性而产生的。我们解决这些问题,通过训练个人代理与一种新的价值分解网络架构,学会分解成代理明智的价值函数的团队价值函数。原创 2024-03-29 10:38:32 · 1626 阅读 · 0 评论