AMiner论文推荐

DisCoRL是一种新的强化学习方法,它使用目标分布作为任务表示,以学习可应用于多种任务的通用策略。这种方法克服了分类上下文和目标条件策略的局限性,能够在新目标分布任务中表现出优越的泛化能力。论文通过机器人操纵任务的实验验证了DisCoRL的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文名称:DisCo RL: Distribution-Conditioned Reinforcement Learning for General-Purpose Policies
论文链接:
https://www.aminer.cn/pub/604f1e079e795e5feaac5514f=cs
是否可以使用强化学习来学习可以执行各种不同任务,产生灵活且可重复使用的技能的通用策略?上下文策略原则上提供了此功能,但是上下文的表示方式决定了概括性和表达性。分类上下文无法将其推广到全新的任务。目标条件策略可以实现某种概括,但不能捕获可能需要的所有任务。本文提出目标分布作为适合上下文策略的通用且广泛适用的任务表示。分配类别的特定选择使我们可以权衡表达能力和可学习性。本文通过分配条件强化学习(DisCo RL)的非策略算法,以有效地学习这些策略。对各种机器人操纵任务进行了DisCo RL评估,发现对于需要归纳到新目标分布的任务,DisCo RL明显优于以前的方法。
AMiner,让AI帮你理解科学!https://www.aminer.cn
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值