CVPR 2023
paper
Introduction
IL中尤其是IRL交替学习奖励函数以及策略计算复杂且高方差。本文提出一种将微分物理模拟器(differentiable physics simulators)作为先验结合到模仿学习的策略优化,即ILD将模仿学习看作是利用可微分物理模拟器实现状态匹配。ILD从参数化的策略中采样动作,最小化专家轨迹与智能体轨迹状态距离并通过时间物理算子将梯度反向传播到策略中,实现策略优化。

Method

不同于BC利用动作的L2损失函数优化策略,ILD则是针对轨迹状态并将它们与专家演示进行匹配。然而简单通过计算状态L2累计损失实现精确匹配是不现实的,每个状态s 的相应学习目标状态g 可能是不切实际的,因为 st 和 gt 之家的距离会远大于初始阶段,该目标超过了可微动力学可以提供的能力。
ILD提出Chamfer-α loss实现匹配问题。ILD不是选择那些遥远的正确但不切实际的目标进行匹配,而是动态地为演示的状态选择最近的局部目标,如图Fig2所示。该损失函数可以分为两部分,偏差损失(Deviation loss)和覆盖损失(Coverage loss)
偏差损失(Deviation loss)
L d = 1 ∣ τ θ ∣ ∑ s t ∈ τ θ min g ∈ τ e x p ∥ g − s t ∥ 2 2 . L_{\mathsf d}=\frac{1}{|\tau_\theta|}\sum_{s_t\in\tau_\theta}\min_{g\in\tau_{\mathsf{exp}}}\|g-s_t\|_2^2. Ld=∣τθ∣1st∈τθ∑g∈τexpmin

本文介绍了一种新的模仿学习方法ILD,它结合了微分物理模拟器,通过Chamfer-αloss解决状态匹配问题,同时引入偏差损失和覆盖损失来稳定优化过程,避免状态崩溃。
最低0.47元/天 解锁文章
549

被折叠的 条评论
为什么被折叠?



