EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)

最新推荐文章于 2025-11-26 04:48:26 发布

原创

最新推荐文章于 2025-11-26 04:48:26 发布 · 1w 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #图像处理 #人工智能 #交换工具

EdgeFlow是一种新颖的交互式图像分割方法，通过边缘引导流充分利用用户点击信息，无需额外后处理即可达到先进的分割效果。

[Paper] EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)
[Code]PaddlePaddle/PaddleSeg

EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow
EdgeFlow：使用 Edge-Guided Flow 实现实用的交互式分割

高质量的训练数据在图像分割任务中起着关键作用。通常，对于大量训练数据，像素级注释昂贵、费力且耗时。为了降低标记成本并提高分割质量，已经提出了交互式分割方法，只需点击几下即可提供结果。然而，它们的性能在速度和准确性方面不能满足实际分割任务的要求。在这项工作中，我们提出了 EdgeFlow，这是一种新颖的架构，它通过边缘引导流充分利用用户点击的交互信息。我们的方法在没有任何后处理或迭代优化方案的情况下实现了最先进的性能。基准测试的综合实验也证明了我们方法的优越性。此外，使用所提出的方法，我们为实际数据注释任务开发了一种高效的交互式分割工具。源代码和工具可从 https://github.com/PaddlePaddle/PaddleSeg 获得。

介绍

深度学习在计算机视觉领域取得了巨大成功，例如图像识别 [7, 23]、对象检测 [13, 22] 和图像分割 [12, 35, 33]。为了学习强大的抽象，大量标记的图像数据对于模型训练过程通常是必不可少的。随着数据量的增加，人工标注的成本快速增长，尤其是在涉及像素级分割任务时。尽管已经提出了半监督甚至无监督的算法来缓解标签依赖性，但它们与全监督的准确性仍有很大差距。

因此，交互式分割似乎是一种有吸引力且有效的方式，它允许人类注释者快速提取感兴趣的对象 [55]。与以模型为中心的方法不同，交互式分割方法考虑了交互式信息。因此，它们简化了注释过程并逐步提高了质量。一般来说，交互信息可以是各种输入，例如涂鸦[4]、点击[50、32、49]、边界框[53]等。

以前的工作已经很好地研究了不同交互的特征，其中基于点击的方法是最有前途的，因为它们以最少的交互时间提供了足够的选定对象信息。在实践中，基于点击的方法通常使用两种类型的用户点击，即正面点击和负面点击。正面点击旨在强调目标对象（前景），负面点击隔离非目标区域（背景）。通常，此类方法只需点击几下即可完成对象分割任务，如图 1 所示。
在这里插入图片描述
近年来，有一些关于基于点击的交互式分割的作品 [24, 21, 49]，其中深度学习方法在准确性方面超越了传统方法。然而，它们中的大多数都需要在评估过程中进行额外的后处理，这在实践中很耗时。最近，端到端交互算法 [32, 50] 被提出来加速点击交互，但它们有共同的问题。点击是第一层的唯一输入，因此特定的空间和语义信息将通过早期层被稀释。另一个问题是连续点击的关系没有正确建模，导致注释不稳定，例如两次连续点击之间的分段注释会发生显着变化。

在这项工作中，我们提出了一种新颖的交互式分割架构，它充分利用了用户的点击和连续点击的关系。为了增强交互信息，用户点击的特征被嵌入到早期和晚期层中，并且图像特征与早期-晚期融合策略有效地集成。为了建立两次连续点击之间的关系，将前一次点击生成的边缘掩码与当前点击一起作为输入。显着提高了分割结果的稳定性。此外，我们采用粗到细的网络设计来进一步获得细粒度的分割。综合评估显示了我们在知名基准测试中的最先进性能。

此外，基于所提出的交互模型，我们为实际的分割任务开发了一种有效的交互式分割工具，例如图像标记。该工具不仅生成分割掩码，还允许用户调整掩码的多边形顶点以进一步提高精度。因此，该工具根据不同的实际任务为注释准确性提供了灵活的选择。

我们的贡献总结如下：

我们提出了一种新颖的交互架构，通过早晚融合充分利用交互和图像信息。交互式点击的增强防止了网络上的特征稀释，然后使其能够有效地响应点击。
我们利用网络产生的对象边缘来提高分割稳定性。通过从粗到细的网络设计，综合实验表明我们的方法在多个基准测试中达到了最先进的性能。
我们开发了一种高效的交互式分割工具，支持交互式注释和多边形框编辑。我们的工具还支持多场景和各种标签格式。

提出的方法

在这项工作中，我们提出了一种新颖的交互式分割架构，它充分利用了点击次数和连续点击次数的关系。与之前在第一层将图像和点击结合在一起的方法相比，我们提出的方法 1) 利用单独的分支来增强点击的特征，使网络能够更好地响应交互信息； 2）应用边缘掩码作为网络的先验信息，稳定注释。

网络架构

如图 2 所示，所提出的架构由两部分组成，输入基础分割模型（CoarseNet）和细化模型（FineNet）。对于网络输入，边缘掩码和正/负点击由交互式分支编码。
在这里插入图片描述
粗网我们利用 HRNet-18 [51] 作为主干和 OCRNet [54] 作为分割头。该架构已被证明非常适合语义分割任务。与通用分割模型中的单个图像分支不同，我们在主干中添加了一个交互分支来处理正面点击、负面点击以及边缘掩码。一开始，边缘掩码被初始化为一个与输入图像大小相同的零图。接收到用户点击后，通过分割结果估计边缘掩码，然后作为输入的一部分。为了获得准确的边缘掩码，我们在分割头中为边缘约束添加了一个辅助块。图像与交互分支的融合细节将在3.2节介绍。
精网我们利用 FineNet 模块进一步细化粗分割掩码。该模块以三部分作为输入，CoarseNet 的输出、原始图像和用户点击，其中图像和用户点击与 CoarseNet 中的部分输入相同。请注意，为了更好的可视化，我们没有将它们连接到图 2 中的 FineNet，而它们在我们的实现中是连接的。为了提高计算效率，我们在 FineNet 中使用了三个具有轻量级操作的多孔卷积块。多孔卷积还可以在高分辨率特征上获得大的感受野，从而可以获得更多的上下文信息并提高输出的质量。