Deep Image Homography Estimation-优快云博客

本文介绍了一种使用深度学习估计图像单应性的方法，基于2016年CVPR发表的文章。通过构建HomographyNet网络，利用MS-COCO数据集训练，实现了对图像单应性的有效估计。实验结果显示，回归网络在效果上优于传统ORB方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转载：https://blog.youkuaiyun.com/ajing2014/article/details/53998866
展开
本篇博文主要讲解2016年发表在 Computer Visionand Pattern Recognition上的一篇文章Deep Image Homography Estimation文章地址，该文章主要讲述了使用ConvNet来实现对Homography的估计，作者来自于Magic Leap，一家做AR的公司，大家可能对这个名字不是很熟悉，但是相信该链接中的视频确实引起一阵AR的浪潮。Homography（单应性）为SLAM领域的问题，由于本人对SLAM并不是特别的了解，对该文章中的卷积神经网络的应用比较感兴趣，所以如果有领域内的专业术语理解有误或者措辞不当的请谅解。

需要解决的问题？

传统、简单的解决Homography的方法是使用一个3*3的矩阵和一个固定的尺度比例，如下公式所示：

其中[u,v]为图像1中点p的位置，[u',v']为同一物体相机位于不同视角拍摄的图片2中所对应p'的位置，为旋转项，[H_13 H_23]为平移偏移项。可以将问题寻找9个参数的问题转化为8个参数的问题，如下图所示。

其中∆u_1=u_1^'-u_1，其中左图中的4个角点组成一个4边形，对应右图中由4个角点组成的4边形，这样参数就由9个变成现在的8个。问题现在比较明确为求这8个参数。

数据集构造

对于深度学习来说，构造数据集是一个非常关键的问题。

step1：随机的以p为中心（注意边界）切一个正方形大小的patch，该patch由4个角点组成，step2：对这4个角点加扰动量[-ρ,ρ]，就生成了step3中的绿色的4变形，将该多边形的变化矩阵应用到整幅图中就可以得到step4中的图。这样就可以得到左右两幅图的图像对。

其中在训练网络中，采用SGD，动量值为0.9，基本的学习速率为0.005，每经过30000次迭代产生学习速率会下降0.1，训练网络中共有90000次迭代，batch size为64.在caffe框架中训练，采用Titan X GPU加速，大概每个网络训练时间为8小时。

training data

采用MS-COCO的训练集，将所有图片转化为320*240的灰度图，通过上述的构造数据集的方法共产生500，000对128*128的图像对，其中ρ=32，大约为图像尺寸的1/4。

testing data

采用MS-COCO14的测试集，将图片转化为640*480的灰度图，并裁剪成256*256的图像对，其中ρ=64。

HomographyNet构建

结构类似于VGG的网络，卷积核为3*3，采用了Batch Norm和ReLU，总共网络包含8个卷积层，每个卷积层的个数为：64、64、64、64、128、128、128、128，每两个卷积层之后又一个max pooling（2*2，步长为2），以及2个全连接层，输入为2-通道的灰度图，即将左图和右图叠加成2通道的图片，可以参考该博客理解。

其中文中构造了两种HomographyNet网络，