ICML 2024 paper code Intro 利用基于次优专家数据的专家策略,通过policy constraint的形式引导智能体的在线优化,同时通过利用在线高质量数据扩展专家数据,并有监督得对专家策略进行矫正。二者交替优化实现目标策略的迭代更新 Method 上述定理说明两个问题:1)最优策略下的 J ( π ) J(\pi) J(π)是受限于 J ( π E ) J(\pi_E) J(π