《强化学习周刊》第26期:UCL& UC Berkeley发表深度强化学习中的泛化研究综述、JHU推出基于强化学习的人工决策模型

第26期《强化学习周刊》论文推荐
智源社区推出第26期《强化学习周刊》,整理了强化学习领域最新论文、新工具和数据集。推荐的14篇论文涉及目标条件强化学习、深度强化学习在恶意软件中的应用等多个方面,还对深度强化学习中的泛化研究进行了综述,并给出未来研究建议。

关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第26期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等,以飨诸位。
本期贡献者:李明、刘青、小胖、陈元
文章来源:智源社区

论文推荐

强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如目标条件强化学习、基人工决策模型强化学习、深度强化学习在恶意软件中的应用、无模型风险敏感强化学习、迁移强化学习、基于模型的强化学习、元强化学习相关的理论及其最新应用等。
本次推荐了14篇强化学习领域的相关论文,主要涉及于基于长期目标条件强化学习的后续特征标志、基于独立协作 AI 队友的人工决策模型强化学习、基于深度强化学习增强 NOP 指令的插入以混淆恶意软件、低精确度强化学习、基于模型的强化学习的有效调度、直接和间接强化学习、稀有扩散动力学的强化学习、强化学习配置交互、基于缓冲图签名的实时视频流事件元强化学习等。

标题:Successor Feature Landmarks for Long-Horizon Goal-Conditioned Reinforcement Learning(基于长期目标条件强化学习的后续特征标志)简介:在现实世界中动作通常需要智能体了解复杂环境,并应用这种理解来实现广泛的目标。其被称为目标条件强化学习(GCRL)的问题对于长期目标来说尤为具有挑战性。现有的方法通过使用基于图的规划算法来增强目标条件策略来解决此问题。然而,其很难扩展到大型、高维的状态空间,并假设能够访问有效收集训练数据的探索机制。本文引入后续特征标志(SFL)用于探索大型高维环境的框架,以获得能够胜任任何目标的策略。SFL利用后续特征(SF)捕捉过渡动态的能力,通过估计状态新颖性来推动探索,并通过将状态空间抽象为非参数的基于地标的图形来实现高级规划。本文应用SF直接计算地标间遍历的目标条件策略,使用该策略执行计划,在探索的状态空间边缘“前沿”地标。在MiniGrid和ViZDoom上的实验表明,SFL能够有效地探索大型高维状态空间,并在长期GCRL任务上优于最先进的基线。
论文地址:https://www.aminer.cn/pub/619715fd5244ab9dcb185a64?f=cs

标题:JHU | Reinforcement Learning on Human Decision Models for Uniquely Collaborative AI Teammates(基于独立协作 AI 队友的人工决策模型强化学习)
简介:2021年约翰·霍普金斯大学应用物理实验室举行了一次内部挑战,以开发能够在协作纸牌游戏Hanabi中表现出色的人工智能(AI)智能体。对智能体进行评估,看他们是否有能力与以前从未遇到过的人类玩家一起玩。该研究详细介绍了通过实现16.5的人类游戏平均分数而赢得挑战的智能体的开发,其表现优于目前最先进的人类机器人Hanabi分数。获胜代理的开发包括观察作者在 Hanabi 中的决策并对其进行准确建模,然后用作者的行为克隆进行训练。该智能体通过模仿人类决策发现了一种与人类互补的游戏风格,然后探索类人策略的变化,导致更高的模拟人机分数。本文详细研究了这个与人类兼容的 Hanabi 队友的设计和实施,以及人类互补策略的存在和影响,以及探索它们如何在人机团队中更成功地应

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值