【论文笔记】无监督图像拼接

原创

已于 2023-05-19 19:17:24 修改 · 2.6k 阅读

41 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能 #深度学习

于 2023-05-19 16:26:59 首次发布

该论文提出了一种无监督深度图像拼接框架，包括粗图像对齐和图像重建两阶段。通过无监督单应性网络和空间变换层处理大基线场景，解决了传统方法在特征检测和分辨率低时的问题。无监督图像重建网络在特征级别消除不对齐，提高了拼接质量。此外，还发布了一个真实图像数据集用于训练和评估。实验显示，该方法优于现有先进技术。

【论文笔记】Unsupervised Deep Image Stitching: ReconstructingStitched Features to Images

摘要
一、介绍
二、相关工作
三、无监督粗图像对齐
- 3.1 无监督单应性
- 3.2 拼接空间变换层
四、无监督粗图像重建

论文地址：https://arxiv.org/abs/2106.12859
代码：https://github.com/nie-lang/UnsupervisedDeepImageStitching

摘要

传统的基于特征的图像拼接技术严重依赖于特征检测质量，往往无法拼接特征少或分辨率低的图像。由于缺乏标记数据，基于学习的图像拼接解决方案很少被研究，使得监督方法不可靠。为了解决上述局限性，我们提出了一种无监督深度图像拼接框架，该框架由两个阶段组成：无监督粗图像对齐和无监督图像重建。
在第一阶段，我们设计了一个基于消融的损失来约束一个更适合大型基线场景的无监督单应性网络。此外，在拼接域空间中引入一个空间变换层对输入图像进行翘曲处理。在第二阶段，基于像素级的图像错位可以在特征级上得到一定程度的消除，我们设计了一个无监督图像重建网络来消除从特征到像素的伪影。具体来说，重构网络可以由一个低分辨率的变形分支和一个高分辨率的精细分支来实现，学习图像拼接的变形规律，同时提高分辨率。为了建立一个评估基准和训练学习框架，提出并发布了一个全面的用于无监督深度图像拼接的真实图像数据集。大量的实验很好地证明了我们的方法优于其他最先进的解决方案。

一、介绍

传统的图像拼接方法是基于特征的方法，其中特征检测是影响拼接性能的第一步。然后利用匹配的特征建立参数化图像对齐模型，通过该模型对目标图像进行扭曲，使其与参考图像对齐。最后，通过对扭曲图像之间重叠区域的每个像素分配像素值，即可获得拼接图像。然而，在实际场景中，每个图像域可能包含多个不同的深度层次，这与单应性的平面场景假设相矛盾。由于单一的单应性不能解释不同深度级别的所有对齐，因此在缝合结果中经常存在重影效应。

传统的feature-based的解决方案以两种主流方式减少了瑕疵：
第一种方法是通过尽可能将目标图像与参考图像对齐来消除伪影。这些方法将图像划分为不同的区域，并计算每个不同区域的单应性矩阵。通过对这些区域施加空间变化的翘曲，重叠区域可以很好地对齐，并且显着减少了伪影。
第二种方法是通过研究最佳缝线来拼接翘曲的图像来消除瑕疵。通过优化与接缝相关的成本，可以将重叠区域沿接缝方向划分为两个互补区域。然后，根据两个区域形成拼接图像。基于特征的解决方案可以显著减少大多数场景中的伪影。然而，它们严重依赖于特征检测，因此在特征较少或分辨率较低的场景中，拼接性能可能会急剧下降甚至失败。
CNN很牛逼，但是所有的解决方案都是有监督的方法，由于没有实际场景的拼接标签，目前还没有真正的图像深度拼接数据集。因此，这些网络只能在“无视差”的合成数据集上进行训练，导致在真实场景中的应用不令人满意。
我们发现特征级的不一致比像素级的不一致更不明显。与像素相比，feature map更加模糊，这表明在pixel-level上的不对齐可以在feature-level进行一定程度的消除。因此，我们认为在feature-level比在pixel-level更容易消除伪影。
请添加图片描述
我们还提出了一个大型的真实世界图像拼接数据集，该数据集包含不同的重叠率、不同的视差程度和不同的场景，如室内、室外、夜间、黑暗、雪地和变焦。这里，我们将重叠率定义为重叠区域占图像总面积的百分比。
实验结果表明，我们的方法在真实场景中优于其他最先进的解决方案。本文的贡献总结如下：

提出了一种无监督深度图像拼接框架，该框架由无监督粗图像对齐阶段和无监督图像重建阶段组成。
我们提出了第一个用于无监督深度图像拼接的大型真实数据集，我们希望它可以作为一个基准数据集，并推动其他相关的研究工作。
我们的算法优于最先进的技术，包括在真实场景中的单应性估计解决方案和图像拼接解决方案。即使与监督解决方案相比，我们的图像拼接质量仍然受到用户的青睐。

二、相关工作

2.1 基于特征的图像拼接

2.2 基于学习的图像拼接

2.3 深度单应方案

三、无监督粗图像对齐

3.1 无监督单应性

现有的无监督深度单应性方法[37]、[38]以图像块为输入，如图3 (a)中白色方块所示，这些方法的目标函数可表示为：
在这里插入图片描述
P()表示切patch，H()表示通过单应性矩阵扭曲， $I^A$ , $I^B$ 是两张图片
为了使扭曲后的目标patch接近参考patch，利用目标patch周围多余的内容填充扭曲后的目标patch中的无效像素。我们称之为基于填充的约束策略。该策略在小基线或中基线的单应性估计中效果良好，而在大基线情况下则失败。特别是，当基线太大时(如图3 (a)所示)，可能会导致输入patch之间没有重叠区域，从而导致这些patch的单应性估计毫无意义。说人话就是没把重叠部分划进patch里。
在这里插入图片描述
为了解决这个问题，我们设计了一个基于消融的策略来约束大基线无监督单应性估计。
具体来说，我们将完整的图像作为输入，确保所有重叠的区域都包含在我们的输入中。当我们将扭曲的目标图像靠近参考图像时，我们不再填充扭曲图像中的无效像素。相反，我们将参考图像中被扭曲的目标图像中无效像素所在的内容清除，如图3 (b)所示。我们的无监督单应性目标函数：请添加图片描述
$\odot$ 表示哈达玛积，E是与 $I^A$ 大小相同的全1矩阵
在无监督单应性网络的架构上，我们采用了[36]中提出的多尺度深度模型，将特征金字塔和特征关联统一在一个框架中，实现了从粗到精的单应性预测，处理相对大基线的场景。