论文阅读笔记——VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipula-优快云博客

本文链接：https://blog.youkuaiyun.com/Multiple_x/article/details/145950638

2411.09153
在这里插入图片描述
VidMan 使用两阶段训练，第一阶段（VDT）将视频、轨迹、语音作为输入，意在从视频中学习时序动态数据，第二阶段利用第一阶段训练的，进行 adapt，从之前学习到的动态捕捉能力输出 action。

Tips：在作为第一阶段的输入时，把 history images 和 future images 作为token，history images 作为条件，future 留空，和视频 token 进行 concatenate。
如果把先前所述 VDT 和逆动力学模型结合，即构建一个图像预测到动作的逆动力学模型，同样可以观测动作。

但是 VDT 迭代去噪过程很慢，而且图像中很多像素对于动作预测冗余。
故而选择，固定扩散步骤 k <- K，直接使用高斯噪声，并优化 VDT 每一层加入 adapter：
$V_{\mathrm{action}}=\epsilon_{(\theta,\phi_{\mathrm{ada}})}(V_{c}^{K},y,K,Q_{\mathrm{action}})$
最终通过 Diffusion-based Action Head 将高斯噪声解码成动作信号。
$\mathcal{L}_a(\theta,\phi_{\mathrm{ada}},\phi_{\mathrm{dec}})=\mathbb{E}_{(V_{\mathrm{action}},l)}\left[\left\|\epsilon^{\prime}-\pi_{\phi_{\mathrm{dec}}}\left(\varepsilon(V_{\mathrm{action}},\epsilon^{\prime},l),l\right)\right\|_{2}^{2}\right]$