关于周刊
强化学习作为人工智能领域研究热点之一,其研究进展与成果也引发了众多关注。为帮助研究与工程人员了解该领域的相关进展和资讯,智源社区结合领域内容,撰写为第25期《强化学习周刊》。本期周刊整理了强化学习领域相关的最新论文推荐和新工具、数据集等,以飨诸位。
本期贡献者:李明、刘青、小胖、陈元
文章来源:智源社区
论文推荐
强化学习近年来取得了令人瞩目的成就,其应用于各个领域的研究也取得较大的进步,比如分层强化学习、基准偏好的强化学习、基于深度强化学习的机器人控制、无模型风险敏感强化学习、安全强化学习相关的理论及其最新应用。
本次推荐了12篇强化学习领域的相关论文,主要涉及于基准偏好的强化学习、使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值、无模型风险敏感强化学习、基于行动-评论监督优势的推荐系统、网格世界的规则决策过程、基于强化学习和神经风格转换的跨模态三维导航、基于大邻域搜索策略学习的整数规划、通过课程引导安全的强化学习、受监督学习支持的 Riverbed Modeler 强化学习 M&S 框架、具有自动子目标识别的分层强化学习等。
标题:B-Pref: Benchmarking Preference-Based Reinforcement Learning(B-Pref:基于基准偏好的强化学习)
简介:强化学习 (RL) 需要访问奖励函数来激励正确的行为,但众对于复杂的任务很难指定这些功能。基于偏好的强化学习提供了一种替代方案:使用教师偏好的学习策略,无需预先定义奖励,从而克服与奖励工程相关的问题。然而,由于缺乏普遍采用的基准,很难量化基于偏好的强化学习的进展。本文提出了 B-Pref:一种专为基于偏好的 RL 设计的基准。该基准测试的关键挑战是提供了快速评估候选算法的能力,这使得依赖真实的人工输入进行评估变得令人望而却步。同时,将人类输入模拟为对基本真理奖励函数的完美偏好是不现实的。B-Pref 通过模拟具有各种不合理性的教师来缓解这种情况,并提出不仅针对表现而且针对这些潜在不合理性的稳健性的指标。通过使用 B-Pref 来分析算法设计选择(例如为最先进的基于偏好的 RL 算法选择信息查询)来展示 B-Pref 的实用性。本文希望 B-Pref 可以作为一个共同的起点,更系统地研究基于偏好的 RL。
论文地址:https://www.aminer.cn/pub/6184a0d35244ab9dcb28c2b9?f=cs
标题:Causal versus Marginal Shapley Values for Robotic Lever Manipulation Controlled using Deep Reinforcement Learning(使用深度强化学习控制的机器人杠杆操作的因果与边缘Shapley值)
简介:本文研究了在生成解释时包含有关机器人系统因果关系的领域知识的影响。在使用深度强化学习训练的深度神经网络上比较了来自可解释人工智能的两种方法,流行的 KernelSHAP 和最近的因果 SHAP使用机器人操纵器控制杠杆的任务。KernelSH

本期强化学习周刊精选了12篇最新研究论文,涵盖基于偏好的强化学习、深度强化学习控制的机器人操作、风险敏感强化学习等多个主题。同时介绍了一个强化学习数据集生态系统RLDS,旨在促进数据集的生成、共享和使用。
最低0.47元/天 解锁文章
2万+

被折叠的 条评论
为什么被折叠?



