模仿学习:Using Offline Data to Speed-up Reinforcement Learning in Procedurally Generated Environments

ALA 2023
paper

Intro

研究如何使用离线数据提高在线智能体的sample-efficiency。方法考虑两种设置:(1)在线训练之前预训练策略以及(2)在线RL与IL同时使用离线数据。

Method

使用RAPID算法训练智能体收集离线数据。
第一种设定Pre-training:采用一般BC方法预训练策略:
L B C = − 1 ∣ B ∣ ∑ ( s , a ) ∼ B l n ( π ( a ∣ s ) ) L_{BC}=-\frac{1}{|B|}\sum_{(s,a)\sim B}ln(\pi(a|s)) LBC=B1(s,a)Bln(π(as))

第二种设定Concurrent training:IL以及RL的损失函数将同时使用在在现阶段。RL智能体策略是随机初始化,并与一般RL一样从环境交互中学习。除此外,定期从离线缓冲区采样数据,通过BC损失优化。如果新轨迹的加权分数(RAPID算法) S = w 0 ⋅ S e x t + w 1 ⋅ S l o c a l + w 2 ⋅ S g l o b a l S=w_{0}\cdot S_{ext}+w_{1}\cdot S_{local}+w_{2}\cdot S_{global} S=w0Sext+w1Slocal+w2Sglobal高于缓冲器轨迹,则将该轨迹加入缓冲区。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值