
多智能体
文章平均质量分 92
LeeKooktao
多智能体RL学习ing
展开
-
10MARL深度强化学习 Value Decomposition in Common-Reward Games
中心化价值函数能够缓解一些多智能体强化学习当中的问题,如非平稳性、局部可观测、信用分配与均衡选择等问题,然而存在很难直接学习价值函数等问题,特别是动作价值函数难以学习,原因是联合动作空间随智能体个数呈指数增长的问题,因此本文章学习如何有效的学习价值函数且最大化共同和奖励过程。原创 2024-02-22 00:03:01 · 1017 阅读 · 0 评论 -
09MARL深度强化学习policy gradient
MARL将CTDE框架应用到AC算法当中原创 2024-02-20 21:32:15 · 971 阅读 · 0 评论 -
08MARL深度强化学习 independent learning
记录independent learning算法的基础概念,使用一些RL算法训练多智能体。原创 2024-02-19 20:55:12 · 1102 阅读 · 0 评论 -
08MARL深度强化学习——模型种类
本文总结了MARL算法当中的三个基本框架:中心化训练与执行、去中心化训练与执行、中心化训练分散执行原创 2024-02-16 16:28:31 · 1105 阅读 · 0 评论 -
07MARL经典算法 Policy-Based Learning
MARL基础算法第三类基于策略的学习。原创 2024-02-15 11:33:30 · 904 阅读 · 1 评论 -
06MARL经典算法 基于agent modelling
agent modelling方法原创 2024-02-15 10:29:48 · 904 阅读 · 1 评论 -
05MARL经典算法 基于联合动作价值函数
记录MARL基础算法中的JAL-GT算法原创 2024-02-01 21:21:16 · 1316 阅读 · 1 评论 -
04MARL - priori kownledge and challenge
此篇笔记记录了MRAL一般训练流程中的成分以及目前的挑战和模型的类型等。原创 2024-01-30 16:48:23 · 979 阅读 · 1 评论 -
03MARL-联合策略与期望回报
多智能体强化学习问题中的博弈论知识——联合策略与期望回报。原创 2024-01-10 14:51:57 · 1130 阅读 · 0 评论 -
02局部可观测随机博弈过程
局部可观测随机博弈过程原创 2024-01-10 10:07:43 · 1243 阅读 · 0 评论 -
01多智能体交互模型:标准博弈与随机博弈
多智能体强化学习——标准博弈与随机博弈过程原创 2024-01-10 00:06:38 · 2089 阅读 · 0 评论 -
Distributed Heuristic Multi-Agent Path Finding with Communication
应用RL在局部可观察的环境下学习去中心化的策略是近几年的方法,在拥堵的情况下学习到避免碰撞的策略是一大挑战。本文提出了一种结合通信与DQN的路径规划算法,agent之间通过图卷积实现协作。同时嵌入潜在的选择单源的最短路径作为启发式的指导,单独的训练每个智能体,将训练好的策略应用到每个智能体当中分散执行。原创 2023-12-18 23:38:49 · 1338 阅读 · 1 评论 -
多智能体路径规划综述(万字长文解读)--2022
多智能体路径规划(multi-agent path finding,MAPF)是为多个智能体规划路径的问题,关键约束是多个智能体同时沿着规划路径行进而不会发生冲突按照规划方式不同:MAPF算法分为集中式规划算法和分布式规划算法,集中式规划算法是最经典和最常用的MAPF算法,主要分为基于A*搜索、基于冲突搜索、基于代价增长树和基于规约四种算法;分布式执行算法分为专家演讲型,改进通信型和任务分解型三种算法虽然经典的集中式规划算法是目前最常用的也是效率最高的算法。基于多智能体深度强化学习的分布式执行算法在。原创 2023-11-10 23:24:52 · 12813 阅读 · 1 评论 -
多智能体深度强化学习综述笔记
多智能体深度强化学习是机器学习领域的一个新兴研究热点与应用方向,覆盖众多算法、规则、框架、并广泛应用于自动驾驶、能源分配、编队控制、路径规划、社会难题等领域,具有很高的研究价值与意义。原创 2023-11-09 00:11:57 · 4417 阅读 · 1 评论