ICML 2024 paper code Intro O2O如何避免悲观学习导致sample efficiency较低,亦或者乐观估计导致的performance drop。本文提出贝叶斯准则,指导在线学习过程中的探索和利用。通过构建一个Q值相关的信念分布,agent可以对不同策略的优劣有一个概率性的评估。 Method offline pretrain 离线训练阶段,采用集成的TD3+BC的方法学习多个Q值函数与策略函数 其中,还采用一个Bernoulli分布 { M l } l = 1 L , M l ∈ { 0 , 1 } N \{M_l\}_{l=1}^{L}, M_l\in\{0,1\}^N {