论文阅读笔记——VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipula

2411.09153
在这里插入图片描述
VidMan 使用两阶段训练,第一阶段(VDT)将视频、轨迹、语音作为输入,意在从视频中学习时序动态数据,第二阶段利用第一阶段训练的,进行 adapt,从之前学习到的动态捕捉能力输出 action。
在这里插入图片描述
在这里插入图片描述

Tips:在作为第一阶段的输入时,把 history images 和 future images 作为token,history images 作为条件,future 留空,和视频 token 进行 concatenate。
如果把先前所述 VDT 和逆动力学模型结合,即构建一个图像预测到动作的逆动力学模型,同样可以观测动作。

但是 VDT 迭代去噪过程很慢,而且图像中很多像素对于动作预测冗余。
故而选择,固定扩散步骤 k <- K,直接使用高斯噪声,并优化 VDT 每一层加入 adapter:
V a c t i o n = ϵ ( θ , ϕ a d a ) ( V c K , y , K , Q a c t i o n ) V_{\mathrm{action}}=\epsilon_{(\theta,\phi_{\mathrm{ada}})}(V_{c}^{K},y,K,Q_{\mathrm{action}}) Vaction=ϵ(θ,ϕ

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值