Deep3D: Fully automatic 2D-to-3D video conversion with deep convolutional neural networks

作者借助3D电影帧解决深度估计数据稀少问题,基于VGG16构建端到端监督网络预测右视图。虽然尝试利用temporaldependency(如opticalflow)以增强模型预测,但实验结果显示这反而增加了MAE,可能由于模型复杂性和多输入数据干扰。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接
论文代码(MXNet)

作者避免了先前深度估计数据集的稀少问题,使用3D电影的帧作为训练数据。The author used left view as the input, and trained an end-to-end supervised neural network (the backbone is based on VGG16) to predict the right view.
网络中间部分输出了left view 和 right view的视差图 (disparity map),but this is only used for minimizing the MAE between the predicted right view and the ground truth. Therefore, the “disparity map” is not “real” and “accurate”.

在评分标准中,在采用MAE之外还采用了人工打分的方式。

值得一提的是,intuitively使用temporal dependency的逐帧视频可能会提高模型的预测能力,但是从MAE结果来看在预测的时候加入5帧optical flow会增加MAE。作者给出的解释是temporal dependency嵌入模型的复杂性。我猜测可能还因为是拍摄角度的转变以及有效信息占比的减少(多输入数据的干扰)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值