RLFD: Imitation Bootstrapped Reinforcement Learnin

CoRR 2023
paper

视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。

Method

  1. 首先利用模仿学习,通过监督学习的形式得到一个专家策略 a I L ∼ μ ψ ( s ) a^{\mathrm{IL}}\sim\mu_{\psi}(s) aILμψ(s)。然后,在线策略优化的目标为一般形式最大化Q价值函数。此时将专家策略也纳入考虑范围。
    a ∗ = arg ⁡ max ⁡ ⁡ a ∈ { a Π , a R L } Q ϕ ( s , a ) . a^{*}=\underset{a\in\{a^{\Pi},a^{\mathrm{RL}}\}}{\operatorname*{\arg\max}}Q_{\phi}(s,a). a=a{ a
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值