【论文精读】Deep Rectangling for Image Stitching: A Learning Baseline

最新推荐文章于 2024-05-14 14:56:52 发布

原创

最新推荐文章于 2024-05-14 14:56:52 发布 · 4.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #图像拼接

本文提出了一种基于深度学习的图像拼接新方法——Deep Rectangling，旨在解决图像拼接中不规则边界的问题。通过预定义刚性目标网格和全卷积网络，实现了一阶段的图像矩形化，减少了传统两阶段方法的失真。综合目标函数结合边界、网格和内容项，确保内容保真度。实验表明，该方法在内容保留和自然性上优于传统方法，适用于线性和非线性结构的图像，并已在公开数据集上进行了验证。

代码：https://github.com/nie-lang/DeepRectangling

链接：https://arxiv.org/abs/2203.03831

概览

目前图像拼接的一个问题是拼接后会产生不规则的边界，如下图1 b所示。目前解决这类问题主要是通过图像矩形化方法，并且通常是分为两个阶段，第一阶段搜索初始网格，第二阶段优化网格来完成网格变形，然后 warp 输入的拼接图像来生成矩形图像，不过这类方案只适合处理具有丰富线性结构的图像，对于带有非线性结构的人物和风景会有明显失真的情况。

本文通过提出第一个图像矩形的深度学习解决方案来解决这些问题。具体来说，我们预先定义了一个刚性目标网格，并且只估计一个初始网格以形成网格变形，从而有助于一个紧凑的单阶段解决方案。使用具有残差渐进回归策略的全卷积网络预测初始网格。为了获得具有高内容保真度的结果，提出了一个综合目标函数，以同时鼓励边界矩形、网格形状保持和内容感知自然。此外，我们构建了第一个图像拼接矩形数据集，在不规则边界和场景中具有很大的多样性。实验证明了我们在数量和质量上都优于传统方法。

主旨

作者想解决什么问题

由于图像拼接的时候，目前大多数方法主要重点优化全局或者局部 warp 来对其不同图像的重叠区域，而非重叠区域会受到不规则边界的影响。

作者通过什么理论/模型来解决这个问题

图像矩形化

作者给出的答案是什么？

提出一种一阶段的图像矩形化方法，具体来说就是设计了一个简单但有效的全卷积网络，以使用残差渐进回归策略从拼接图像中估计内容感知初始网格，然后使用预定义的刚性目标网格进行高效并行计算。此外，提出了一个由边界项、网格项和内容项组成的综合目标函数，以同时鼓励边界矩形、网格形状保持和内容感知自然。

作者为什么研究这个课题？

不规则的边界会影响观感；
目前采用的图像矩形化仅适合具有丰富线性结构的图像，对带非线性结构的人物和风景会有明显失真情况；

目前这个课题的研究进行到哪一个阶段？

对于不规则边界的处理，目前有这几种方法：

通过裁剪方法来处理，但是裁剪会降低拼接图像的 FOV，这和图像拼接的目的矛盾；
采用图像补全来将缺失区域合成为矩形图像，但目前还没有相关工作为不规则边界设计掩码，并且 SOTA 的图像补全工作对图像拼接的处理效果也不让人满意；并且可能添加一些看起来和谐但是和现实不同的内容，这在自动驾驶等高安全性应用中是不可靠的；
而图像矩形化方法主要是通过网格变形来将拼接图像 warp 为矩形，但它们只能保留具有线性结构，比如建筑物、盒子、柱子等，对非线性结构，比如肖像、风景，都会产生失真；另外就是它们采用两阶段，并不好实现并行加速；

研究方法

提出了第一阶段学习基线，即我们预定义了一个刚性目标网格并仅预测一个初始网格。具体来说，我们设计了一个简单但有效的全卷积网络，以使用残差渐进回归策略从拼接图像中估计内容感知初始网格。此外，提出了一个由边界项、网格项和内容项组成的综合目标函数，以同时鼓励边界矩形、网格形状保持和内容感知自然。与现有方法相比，由于我们的内容约束中的有效语义感知，我们的内容保存能力更通用（不限于线性结构）和更健壮。