光流估计Flow

文章介绍了光流估计的历史发展,从FlowNet到最新的FlowFormer,阐述了各模型的特点和改进,如FlowNet2.0的多层结构,PWC-Net的小型化设计,IRR的迭代残差细化,以及RAFT的高准确性和泛化性。此外,提到了重要的数据集KITTI和MpiSintel在光流估计研究中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一. 光流估计的发展历史

1. FlowNet 2015

论文:《FlowNet: Learning Optical Flow with Convolutional Networks》

IEEE International Conference on Computer Vision (ICCV), 2015

特点:首次将CNN运用到光流预测上,使网络能从一对图片中预测光流场,每秒达到5到10帧率,并且准确率也达到了业界标准。

2.FlowNet2.0  

CVPR2017

特点:堆叠多个FlowNetC/FlowNetS子网络来构建更大型的网络结构,逐步细化输出流并得到了更好的效果

3.PWC-Net

《PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume》

 CVPR,2018 by NVIDIA 

特点:与FlowNet2.0模型相比,PWCNet的大小缩小了17倍,训练成本更低且精确度稳定。此外,它在Sintel数据集(1024×436)图像上的运行速度大约为35 fps,是光流估计深度学习中非常基础且具有重要意义的一个网络模型 

参考:光流估计(三) PWC-Net 模型介绍_pwcnet_阿阿阿安的博客-优快云博客

4.IRR

《Iterative Residual Refinement for Joint Optical Flow and Occlusion Estimation》

CVPR2019

特点:从初始光流由粗到细进行Flow推断。虽然精度高,但是参数量也随之增加。IRR从经典的能量最小化方法和残差网络中汲取灵感,提出一种基于权重共享的迭代残差细化方法,IRR可以与多个主干网络结合。减少了参数量的同时,提高了准确性。此外集成了遮挡预测和双向流估计后。IRR可以进一步提升性能。

5.LiteFlowNet2

TPAMI2020!港中文汤晓鸥团队

特点:在Sintel和KITTI基准测试集上性能超过了SOTA方法FlowNet2,并且模型尺寸缩小25.3倍,推理速度快3.1倍。GTX1080显卡上的光流估计帧率达到25

6.RAFT

论文:《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow

ECCV2020 best paper

特点:1.在KITTI上RAFT达到了目前最高的准确率

           2.有很强的泛化性,当只在生成的数据集上训练时RAFT也能有很好的效果。

           3.在1080Ti上能够以10帧每秒运行1088×436像素的图像

7.FlowFormer

《 FlowFormer: A Transformer Architecture for Optical Flow》

ECCV2022 SOTA

二. 数据集

1. KITTI Dataset

由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。

389对用于训练的图片对,但只有一种特殊的动作类型(类似行车记录仪)

2. Mpi Sintel

是从人工生成的动画sintel中提取训练需要的光流ground truth,是目前最大的数据集,每一个版本都包含1064个可一用来训练的图片对,提供的gt十分密集,大幅度,小幅度的运动都包含。
sintel数据集包括两种版本:

  • sintel final:包括运动模糊和一些环境氛围特效,如雾等。
  • sintel clean:没有上述final的特效。

MPI (Max Planck Institute) Sintel is a dataset for optical flow evaluation that has 1064 synthesized stereo images and ground truth data for disparity. Sintel is derived from open-source 3D animated short film Sintel. The dataset has 23 different scenes. The stereo images are RGB while the disparity is grayscale. Both have resolution of 1024×436 pixels and 8-bit per channel.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值