CoRR 2023
paper
视觉或向量输入下的RLFD方法,利用模仿学习得到的策略,以自举方式引导在强化学习的策略优化以及价值函数优化。同时,为了更好的表征,IBRL选取VIT-based的网络以及添加Dropout 到policy。
Method
- 首先利用模仿学习,通过监督学习的形式得到一个专家策略 a I L ∼ μ ψ ( s ) a^{\mathrm{IL}}\sim\mu_{\psi}(s) aIL∼μψ(s)。然后,在线策略优化的目标为一般形式最大化Q价值函数。此时将专家策略也纳入考虑范围。
a ∗ = arg max a ∈ { a Π , a R L } Q ϕ ( s , a ) . a^{*}=\underset{a\in\{a^{\Pi},a^{\mathrm{RL}}\}}{\operatorname*{\arg\max}}Q_{\phi}(s,a). a∗=a∈{ a

最低0.47元/天 解锁文章
1064

被折叠的 条评论
为什么被折叠?



