- 博客(14)
- 收藏
- 关注
原创 论文学习|多智能体强化学习MAAC:基于attention的actor-critic类可扩展MADRL算法
MAAC是基于actor-critic的[learn to cooperate]类多智能体强化学习算法,算法结合了MADDPG、COMA、VDN以及attention机制。
2023-02-24 10:35:17
3301
转载 第三章 强化学习之Actor-Critic(演员-评论家)算法
演员-评论员算法是一种结合策略梯度和时序差分学习的强化学习方法,其中,演员是指策略函数,即学习一个策略以得到尽可能高的回报。评论员是指价值函数,对当前策略的值函数进行估计,即评估演员的好坏。借助于价值函数,演员-评论员算法可以进行单步参数更新,不需要等到回合结束才进行更新。
2022-12-14 15:20:49
4031
转载 第二章 强化学习之马尔科夫决策过程
在介绍马尔可夫决策过程之前,我们先介绍它的简化版本:马尔可夫过程(Markov process,MP)以及马尔可夫奖励过程(Markov reward process,MRP)。通过与这两种过程的比较,我们可以更容易理解马尔可夫决策过程。其次,我们会介绍马尔可夫决策过程中的策略评估(policy evaluation),就是当给定决策后,我们怎么去计算它的价值函数。最后,我们会介绍马尔可夫决策过程的控制,具体有策略迭代(policy iteration)和价值迭代(value iteration)两种算法
2022-12-01 21:38:14
2565
1
转载 第一章 强化学习RL基础
强化学习(RL)是智能体在复杂、不确定环境下最大化获得奖励的过程。所以RL有两个必需的部分:智能体和环境,智能体处在与环境不断交互的过程中,智能体的目的就是从环境中获得更多的奖励。
2022-11-29 19:44:13
569
原创 物流行业的任务分配&协同调度问题研究
随着技术的不断发展,特别是随着电商、快递等的迅猛发展,AGV的应用规模迅速扩大,类Kiva机器人的出现,使得多智能体协作的需求越来越多,机器人的作业路径也由简单变得复杂,对多智能体集群调度的需求越来越大。多机器人调度的方法主要分为精确算法和启发式算法,精确算法主要包括动态规划法、分支定界法、隐枚举法,启发式算法可分为传统启发式算法和智能优化算法。 多机器人调度的标准包括机器人执行任务的能力、任务紧急程度和任务复杂度;分配从机器人的任务需求紧急程度又可以划分为即时分配和延时分配。
2022-11-24 21:41:19
1803
原创 国内电商物流机器人行业亟待解决问题汇总
近几年,智能制造与智慧物流的不断发展为物流机器人提供了丰富的应用场景和广阔的成长空间,物流机器人市场规模逐年扩大。电商物流目前亟待解决的问题主要体现在三个方面:一是SKU(产品入库后一种编码归类方法)数量和组合非常多,同时SKU深度较浅,即商品种类多,但数量相对较少;二是时效性要求高,电商平台通常对于发货时间都有明确的规定;三是订单波动性大,电商促销活动非常多,导致单量短时间内剧增。
2022-11-23 22:05:13
734
原创 快速寻找研究方向+发文章的方法!!按头安利!
1.粗略看感兴趣方向论文的摘要,不要细看,一篇看一天,真的太浪费时间了!!!2.找到感兴趣的有关方向顶级论文;3.论文里面必须有github代码;4.看上传的raedme中有没有写安装需要配置好的环境(软件版本号以及安装包);5.复现论文(先跑通,再看代码!);6.多看论文就会有自己的想法,找到创新点;7.实现创新点的仿真就能写论文啦。
2022-10-27 22:58:07
1310
原创 一文搞定!!!多智能体强化学习的前世今生
最近在学习多智能体的强化学习,看了几篇高质量基础论文,发现还是很有必要将强化学习的体系简单过一遍,然后再有针对性地练习代码。
2022-10-21 14:41:58
1447
原创 论文阅读|Nash Q-Learning for General-Sum Stochastic Games基于强化学习的多智能体研究(附代码)
本文研究的是将Q-learning应用到竞争的多智能体中(多智能体的关系包括竞争、合作、竞争与合作--超市老板与顾客),整体基于广义随机博弈的游戏框架。每个智能体通过联合动作共同维护Q函数,并基于对当前Q值假设的Nash均衡行为来更新,可证明其是收敛的,附有代码。
2022-10-19 10:28:07
5077
4
原创 JCR分区和中科院分区的区别
JCR分区是科睿唯安公司(原为汤森路透)制定。JCR分区将期刊分为176个不同学科类别。基于不同学科的当年影响因子高低进行排序,分为Q1、Q2、Q3和Q4四个区,Q1区代表学科分类中影响因子排名前25%的期刊,以此类推,Q2区为前25%-50%期刊,Q3区为前50%-75%期刊,Q4区为75%以后期刊。一般标记为Q1、Q2、Q3、Q4。中科院分区基于不同学科的3年平均影响因子高低进行排序,分为1、2、3和4四个区, 1区代表学科分类中影响因子排名前5%的期刊,2区为前6%-20%期刊。
2022-09-26 10:14:14
16087
原创 学术第一步:搞清楚SCI、EI、ISTP和中文核心期刊的区别
SCI、EI与ISTP属于国外三大重要检索系统,即国外核心期刊,一般前两个比较重要;中文核心期刊属于国内认准的核心期刊。其中核心期刊是指某个学科的重要期刊,一般是指所含专业情报信息大、质量高,能够代表专业学科发展水平并收到本学科读者重视的专业期刊。
2022-09-18 20:05:34
22633
原创 特征选择、数据降维与聚类的区别与联系
特征选择是指在特征值不变的情况下,从原特征集中选取部分具有代表性的特征(删除冗余和不相关的特征)组成新的特征集合,没有改变原特征空间,但是维数也会相应减少。数据降维改变特征值,是从一个高维空间映射到另一个较低维空间,特征数目不变。聚类是按照某个特定标准(如距离准则)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。
2022-09-18 18:23:50
940
原创 SLAM发展现状研究
SLAM,是指同步定位与建图,定位与建图是两个相辅相成的技术,定位依赖成熟正确的地图构建,建图依赖准确的定位技术。SLAM主要包括激光雷达传感器为核心的激光SLAM和以各类相机传感器为核心的视觉 SLAM两类。
2022-09-14 17:38:43
3074
原创 多机器人协同控制方法研究
随着经济的快速发展,机器人在各行各业的普及度越来越高,与此同时,单一的机器已经逐渐不能满足人们的需求。在面对工农业生产、高危环境作业、水下与空间环境探测、卫星协同控制等复杂环境下,机器人协同研究成为一个亟待优化的问题。从整体来说机器人协同控制是一个涉及许多方面的问题,主要包括:路径规划、任务分配、协同控制、平滑处理四大问题。
2022-09-12 22:31:23
5131
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅