一. 光流估计的发展历史
1. FlowNet 2015
论文:《FlowNet: Learning Optical Flow with Convolutional Networks》
IEEE International Conference on Computer Vision (ICCV), 2015
特点:首次将CNN运用到光流预测上,使网络能从一对图片中预测光流场,每秒达到5到10帧率,并且准确率也达到了业界标准。
2.FlowNet2.0
CVPR2017
特点:堆叠多个FlowNetC/FlowNetS子网络来构建更大型的网络结构,逐步细化输出流并得到了更好的效果
3.PWC-Net
《PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume》
CVPR,2018 by NVIDIA
特点:与FlowNet2.0模型相比,PWCNet的大小缩小了17倍,训练成本更低且精确度稳定。此外,它在Sintel数据集(1024×436)图像上的运行速度大约为35 fps,是光流估计深度学习中非常基础且具有重要意义的一个网络模型
参考:光流估计(三) PWC-Net 模型介绍_pwcnet_阿阿阿安的博客-优快云博客
4.IRR
《Iterative Residual Refinement for Joint Optical Flow and Occlusion Estimation》
CVPR2019
特点:从初始光流由粗到细进行Flow推断。虽然精度高,但是参数量也随之增加。IRR从经典的能量最小化方法和残差网络中汲取灵感,提出一种基于权重共享的迭代残差细化方法,IRR可以与多个主干网络结合。减少了参数量的同时,提高了准确性。此外集成了遮挡预测和双向流估计后。IRR可以进一步提升性能。
5.LiteFlowNet2
TPAMI2020!港中文汤晓鸥团队
特点:在Sintel和KITTI基准测试集上性能超过了SOTA方法FlowNet2,并且模型尺寸缩小25.3倍,推理速度快3.1倍。GTX1080显卡上的光流估计帧率达到25。
6.RAFT
论文:《RAFT: Recurrent All-Pairs Field Transforms for Optical Flow》
ECCV2020 best paper
特点:1.在KITTI上RAFT达到了目前最高的准确率
2.有很强的泛化性,当只在生成的数据集上训练时RAFT也能有很好的效果。
3.在1080Ti上能够以10帧每秒运行1088×436像素的图像
7.FlowFormer
《 FlowFormer: A Transformer Architecture for Optical Flow》
ECCV2022 SOTA
二. 数据集
1. KITTI Dataset
由德国卡尔斯鲁厄理工学院和丰田美国技术研究院联合创办,是目前国际上最大的自动驾驶场景下的计算机视觉算法评测数据集。该数据集用于评测立体图像(stereo),光流(optical flow),视觉测距(visual odometry),3D物体检测(object detection)和3D跟踪(tracking)等计算机视觉技术在车载环境下的性能。
389对用于训练的图片对,但只有一种特殊的动作类型(类似行车记录仪)
2. Mpi Sintel
是从人工生成的动画sintel中提取训练需要的光流ground truth,是目前最大的数据集,每一个版本都包含1064个可一用来训练的图片对,提供的gt十分密集,大幅度,小幅度的运动都包含。
sintel数据集包括两种版本:
- sintel final:包括运动模糊和一些环境氛围特效,如雾等。
- sintel clean:没有上述final的特效。
MPI (Max Planck Institute) Sintel is a dataset for optical flow evaluation that has 1064 synthesized stereo images and ground truth data for disparity. Sintel is derived from open-source 3D animated short film Sintel. The dataset has 23 different scenes. The stereo images are RGB while the disparity is grayscale. Both have resolution of 1024×436 pixels and 8-bit per channel.