深度学习时代的光流估计:架构与学习范式解析
1. 端到端光流估计回归架构
在特征提取网络发展的同时,基于回归的端到端卷积神经网络(CNN)架构也开始用于光流估计。与仅将CNN用于特征提取的方法不同,这些回归方法将CNN应用于整个流程,直接从一对输入图像输出光流。通过替代经典正则化器并避免能量最小化,这些基于CNN的方法结合了端到端可训练性和运行时效率的优点。
1.1 FlowNet
Dosovitskiy等人提出了第一个用于估计光流的端到端CNN架构FlowNet,它有两条主要架构线:FlowNetS和FlowNetC。这两个模型都基于沙漏形神经网络架构,由编码器和解码器组成,仅在编码器部分有所不同。
- FlowNetS :将一对输入图像简单拼接后输入到沙漏形网络,直接输出光流。
- FlowNetC :两个图像共享一个编码器,为每个输入图像提取特征图,并通过相关操作测量两个特征图之间的块级相似度来构建代价体积,结果输入到后续网络层。
训练这些网络需要大量图像对及其真实光流的训练数据集,但当时可用的数据集图像数量很少。为了克服训练数据不足的问题,Dosovitskiy等人建立了合成数据集FlyingChairs,但仅在合成数据集上训练的FlowNet对真实图像的泛化能力不佳。不过,FlowNet证明了端到端回归架构用于光流估计的可能性,并确立了一些训练光流网络的标准做法。
1.2 SPyNet
Ranjan和Black提出的SPyNet将经典的“粗到细”概念融入CNN模型,在多个金字塔级别上更新残差光流。SPyNet
超级会员免费看
订阅专栏 解锁全文
473

被折叠的 条评论
为什么被折叠?



