2411.09153
VidMan 使用两阶段训练,第一阶段(VDT)将视频、轨迹、语音作为输入,意在从视频中学习时序动态数据,第二阶段利用第一阶段训练的,进行 adapt,从之前学习到的动态捕捉能力输出 action。
Tips:在作为第一阶段的输入时,把 history images 和 future images 作为token,history images 作为条件,future 留空,和视频 token 进行 concatenate。
如果把先前所述 VDT 和逆动力学模型结合,即构建一个图像预测到动作的逆动力学模型,同样可以观测动作。
但是 VDT 迭代去噪过程很慢,而且图像中很多像素对于动作预测冗余。
故而选择,固定扩散步骤 k <- K,直接使用高斯噪声,并优化 VDT 每一层加入 adapter:
V
a
c
t
i
o
n
=
ϵ
(
θ
,
ϕ
a
d
a
)
(
V
c
K
,
y
,
K
,
Q
a
c
t
i
o
n
)
V_{\mathrm{action}}=\epsilon_{(\theta,\phi_{\mathrm{ada}})}(V_{c}^{K},y,K,Q_{\mathrm{action}})
Vaction=ϵ(θ,ϕada)(VcK,y,K,Qaction)
最终通过 Diffusion-based Action Head 将高斯噪声解码成动作信号。
L
a
(
θ
,
ϕ
a
d
a
,
ϕ
d
e
c
)
=
E
(
V
a
c
t
i
o
n
,
l
)
[
∥
ϵ
′
−
π
ϕ
d
e
c
(
ε
(
V
a
c
t
i
o
n
,
ϵ
′
,
l
)
,
l
)
∥
2
2
]
\mathcal{L}_a(\theta,\phi_{\mathrm{ada}},\phi_{\mathrm{dec}})=\mathbb{E}_{(V_{\mathrm{action}},l)}\left[\left\|\epsilon^{\prime}-\pi_{\phi_{\mathrm{dec}}}\left(\varepsilon(V_{\mathrm{action}},\epsilon^{\prime},l),l\right)\right\|_{2}^{2}\right]
La(θ,ϕada,ϕdec)=E(Vaction,l)[∥ϵ′−πϕdec(ε(Vaction,ϵ′,l),l)∥22]
实验结果
- 在 CALVIN 基准测试中,VidMan 相对于 SOTA 基线模型 GR-1 实现了 11.7% 的相对改进。
- 在 OXE 小规模数据集 上,VidMan 展示了超过 9% 的精度提升,尤其是在目标机器人数据较少的情况下表现突出。