ALA 2023
paper
Intro
研究如何使用离线数据提高在线智能体的sample-efficiency。方法考虑两种设置:(1)在线训练之前预训练策略以及(2)在线RL与IL同时使用离线数据。
Method
使用RAPID算法训练智能体收集离线数据。
第一种设定Pre-training:采用一般BC方法预训练策略:
L
B
C
=
−
1
∣
B
∣
∑
(
s
,
a
)
∼
B
l
n
(
π
(
a
∣
s
)
)
L_{BC}=-\frac{1}{|B|}\sum_{(s,a)\sim B}ln(\pi(a|s))
LBC=−∣B∣1(s,a)∼B∑ln(π(a∣s))
第二种设定Concurrent training:IL以及RL的损失函数将同时使用在在现阶段。RL智能体策略是随机初始化,并与一般RL一样从环境交互中学习。除此外,定期从离线缓冲区采样数据,通过BC损失优化。如果新轨迹的加权分数(RAPID算法) S = w 0 ⋅ S e x t + w 1 ⋅ S l o c a l + w 2 ⋅ S g l o b a l S=w_{0}\cdot S_{ext}+w_{1}\cdot S_{local}+w_{2}\cdot S_{global} S=w0⋅Sext+w1⋅Slocal+w2⋅Sglobal高于缓冲器轨迹,则将该轨迹加入缓冲区。