Paper : Learning to Compare Image Patches via Convolutional Neural Networks
Code :
摘要
个人认为,本文在孪生神经网络上没什么改进点,值得阅读的点是对双通道、孪生神经网络和伪孪生神经网络之间实验效果的比较,但是文章中所提到的在Image Patch Comparison 中引入CNN和SPP Net 感觉不算创新。使用CNN代替传统的人为设计的特征提取方法,例如SIFT或是HOG或是DAISY之类的在2015年基本上都用滥了。
三种网络结构
首先不考虑图像块的大小是任意大小,先假定是固定大小64*64,文中列出了3种神经网络的结构:孪生神经网络,伪孪生神经网络,双通道神经网络。对于三种神经网络,我们将分支的输出连接起来,使用FC层直接输出预测值。孪生与伪孪生两个分支具有相同的层结构,区别在于是否共享每一层的参数,而双通道网络将两灰度图输入看作是一张双通道输入的图。三种神经网络的参数量由小到大。

三种子网络结构
文中主要使用了三种网络结构构成孪生/伪孪生/双通道的子网络
- Deep Network:处理计算机视觉的常规深度卷积神经网络
- SPP Network:详情见blog,处理任意尺寸的输入

- Central-surround two-stream network:包含以下两个独立的数据流,中心和背景,支持对输入在不同的分辨率下对数据进行处理,Central-surround two-stream network与孪生神经网络之间的结合如下所示
- 中心高分辨率数据流:对 64*64 的输入图片进行中心裁剪到 32*32
- 背景低分辨率数据流:对 64*64 的输入图片进行降采样
- 中心-背景双数据流网络更强调位于中心的像素信息,而且多分辨率信息有助于改善图片匹配的表现

训练
损失函数如下所示
min w λ 2 ∣ ∣ w ∣ ∣ 2 + ∑ max ( 0 , 1 − y i o i n e t ) \min_w \frac{\lambda}{2}||w||_2 + \sum \max(0,1-y_io_i^{net}) wmin2

本文探讨了在图像块匹配任务中使用卷积神经网络(CNN)的不同结构,包括孪生神经网络、伪孪生神经网络及双通道神经网络。通过对三种网络结构的对比,发现基于双通道的网络在图像块匹配上的表现最佳,强调了多分辨率信息的重要性。
最低0.47元/天 解锁文章
3280

被折叠的 条评论
为什么被折叠?



