《强化学习周刊》第22期:ICRA 2021-2022强化学习的最新研究与应用

本文汇总了ICRA2021-2022会议上关于强化学习的最新论文,涉及实时联合概率交通预测、端到端自动驾驶、鲁棒自监督深度强化学习等多个领域。这些研究展示了强化学习在规划、控制、仿真及多模态传感器融合等方面的应用和进步,包括在实际环境中的安全驾驶、策略学习和模型集成等挑战的解决方案。

强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICRA 2021-2022学术会议中,为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第22期《强化学习周刊》。本期周刊整理了ICRA 2021-2022中强化学习领域相关的最新论文推荐和新工具等,以飨诸位。
周刊采用社区协作的模式产生,欢迎感兴趣的朋友们参与我们的工作,一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。
本期贡献者:李明,刘青,刘元,小胖

论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步。人工智能顶会ICRA 2021-2022对强化学习取得了一系列瞩目的进展进行了发布,比如将强化学习应用于规划、控制和仿真的实时联合概率交通预测、高效强化学习样本、基于模型的元强化学习、基于对抗增强学习进行领域自适应的混合模拟器识别、基于深度强化学习加速机器人技能、Recovery RL相关的理论及其最新应用等。

本次推荐了16篇ICRA 2021-2022强化学习领域的相关论文,主要涉及基于强化学习应用于规划、控制和仿真的实时联合概率交通预测、基于激光雷达的端到端自动驾驶与对比深度强化学习、基于鲁棒自监督深度强化学习的多模态互信息 (MuMMI) 训练、基于模型集成探索与开发的高效强化学习样本、基于多任务学习实现无重置强化学习:在无需人工干预的情况下学习灵巧的操作行为、具有悬浮有效载荷的基于模型的元强化学习、SimGAN:通过对抗增强学习进行领域自适应的混合模拟器识别、模型预测演员-评论家:通过深度强化学习来加速机器人技能的获得、Recovery RL:通过学习的恢复区域进行安全强化学习等。
标题:PredictionNet: Real-Time Joint Probabilistic Traffic Prediction for Planning, Control, and Simulation(PredictionNet:用于规划、控制和仿真的实时联合概率交通预测)
简介:预测交通代理的未来运动对于安全高效的自主驾驶至关重要。为此,本文提出了PredictionNet,这是一种深度神经网络(DNN),用于预测所有周围交通智能体的运动以及ego车辆的运动。所有预测都是概率性的,并以简单的自上而下光栅化表示,该光栅化允许任意数量的智能体。以具有车道信息的多层地图为条件,网络在单次传递中联合输出所有智能体(包括ego车辆)的未来位置、速度和回溯向量。然后从输出中提取轨迹。该网络可以用来模拟真实的流量,并在流行的基准上产生有竞争力的结果。通过将其与运动规划/控制子系统相结合,它已被用于成功控制数百公里的真实世界车辆。该网络在嵌入式GPU上的运行速度比实时速度快,并且由于选择了输入表示,该系统显示出良好的泛化(跨感官模式和位置)。此外,本文还证明了通过使用强化学习(RL)扩展DNN,它可以更好地处理罕见或不安全的事件,例如攻击性机动和碰撞。
论文链接:https://www.aminer.cn/pub/616d206a6750f84ef29b03fe?f=cs

标题:Carl-Lead: Lidar-based End-to-End Autonomous Driving with Contrastive Deep Reinforcement Learning(Carl-Lead:基于激光雷达的端到端自动驾驶与对比深度强化学习)
简介:在不受管制的十字路口的城市人群中自动驾驶具有挑战性,应仔细考虑动态遮挡和其他车辆的不确定行为。传统方法是启发式的,基于手工设计的规则和参数,但在新情况下的扩展性很差,在所有可预见的场景中,它们都需要高昂的人力成本来设计和维护规则。深度强化学习(DRL)在城市驾驶场景中显示出有希望的前景。然而,DRL 是样本效率低下的,且先前的大多数研究都假设完美的观察结果,例如地面真实位置和车辆的运动,而没有考虑噪声和遮挡,这对于策略部署来说可能是一个过于强硬的假设。本文使用 DRL 来训练基于激光雷达的端到端驾驶策略,这些策略自然会考虑不完美的部分观察。通过进一步使用无监督的对比表示学习作为辅助任务来提高样本效率。比较评估结果表明,该方法比最先进的(SOTA)基于激光雷达的端到端驱动网络实现了更高的成功率,比精心调整的基于规则的方法在安全性和效率之间取得了更好的权衡,并且比基线更好地推广到新场景

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值