《Unsupervised Learning for Physical Interaction through Video Prediction》
论文链接
主要解决的问题:解决真实世界的相互学习来预测目标的运动
本论文主要出发点:使用基于条件运动的视频预测,来代替先前方法使用目标标签预测
主要描述
本论文提出的模型,能够明确地预测动作,它能保持目标外观保持部分不变,能够生成先前看不见的目标。本论文引入了一个59000张机器人交互运动的数据集,包含一个测试集对新的目标。在这个数据集,精确预测了机器人将来的动作,通过基于不同运动仿真,来学习不同特征下的“视觉图像”。
系统架构

使用卷积LSTM来处理图像,在最小的中间层的网络和最后一层11通道合成mask,输出10个归一化转换核。这个核用来转换先前图像到10个不同变换上,然后合成在一起根据Mask。这个mask在每个像素上累加是1,因为一个信道softmax。
效果图

主要工作
(1)提出一个基于条件运动的视频预测模型
(2)展示了两个数据集59,000真实Robot和1.5百万视频帧
了解更多关于《计算机视觉与图形学》相关知识,请关注公众号:

下载我们视频中代码和相关讲义,请在公众号回复:计算机视觉课程资料
本文介绍了一种基于条件运动的视频预测模型,该模型能够预测真实世界中目标的运动,特别适用于机器人交互场景。研究利用卷积LSTM处理图像,并通过合成mask实现对动作的精确预测。文中还介绍了包含59,000张图像的真实机器人数据集。
1179





