EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)

EdgeFlow是一种新颖的交互式图像分割方法,通过边缘引导流充分利用用户点击信息,无需额外后处理即可达到先进的分割效果。

[Paper] EdgeFlow:Achieving Practical Interactive Segmentation with Edge-Guided Flow(2021)
[Code]PaddlePaddle/PaddleSeg

EdgeFlow: Achieving Practical Interactive Segmentation with Edge-Guided Flow
EdgeFlow:使用 Edge-Guided Flow 实现实用的交互式分割

高质量的训练数据在图像分割任务中起着关键作用。通常,对于大量训练数据,像素级注释昂贵、费力且耗时。为了降低标记成本并提高分割质量,已经提出了交互式分割方法,只需点击几下即可提供结果。然而,它们的性能在速度和准确性方面不能满足实际分割任务的要求。在这项工作中,我们提出了 EdgeFlow,这是一种新颖的架构,它通过边缘引导流充分利用用户点击的交互信息。我们的方法在没有任何后处理或迭代优化方案的情况下实现了最先进的性能。基准测试的综合实验也证明了我们方法的优越性。此外,使用所提出的方法,我们为实际数据注释任务开发了一种高效的交互式分割工具。源代码和工具可从 https://github.com/PaddlePaddle/PaddleSeg 获得。

介绍

深度学习在计算机视觉领域取得了巨大成功,例如图像识别 [7, 23]、对象检测 [13, 22] 和图像分割 [12, 35, 33]。为了学习强大的抽象,大量标记的图像数据对于模型训练过程通常是必不可少的。随着数据量的增加,人工标注的成本快速增长,尤其是在涉及像素级分割任务时。尽管已经提出了半监督甚至无监督的算法来缓解标签依赖性,但它们与全监督的准确性仍有很大差距。

因此,交互式分割似乎是一种有吸引力且有效的方式,它允许人类注释者快速提取感兴趣的对象 [55]。与以模型为中心的方法不同,交互式分割方法考虑了交互式信息。因此,它们简化了注释过程并逐步提高了质量。一般来说,交互信息可以是各种输入,例如涂鸦[4]、点击[50、32、49]、边界框[53]等。

以前的工作已经很好地研究了不同交互的特征,其中基于点击的方法是最有前途的,因为它们以最少的交互时间提供了足够的选定对象信息。在实践中,基于点击的方法通常使用两种类型的用户点击,即正面点击和负面点击。正面点击旨在强调目标对象(前景),负面点击隔离非目标区域(背景)。通常,此类方法只需点击几下即可完成对象分割任务,如图 1 所示。
在这里插入图片描述
近年来,有一些关于基于点击的交互式分割的作品 [24, 21, 49],其中深度学习方法在准确性方面超越了传统方法。然而,它们中的大多数都需要在评估过程中进行额外的后处理,这在实践中很耗时。最近,端到端交互算法 [32, 50] 被提出来加速点击交互,但它们有共同的问题。点击是第一层的唯一输入,因此特定的空间和语义信息将通过早期层被稀释。另一个问题是连续点击的关系没有正确建模,导致注释不稳定,例如 两次连续点击之间的分段注释会发生显着变化。

在这项工作中,我们提出了一种新颖的交互式分割架构,它充分利用了用户的点击和连续点击的关系。为了增强交互信息,用户点击的特征被嵌入到早期和晚期层中,并且图像特征与早期-晚期融合策略有效地集成。为了建立两次连续点击之间的关系,将前一次点击生成的边缘掩码与当前点击一起作为输入。显着提高了分割结果的稳定性。此外,我们采用粗到细的网络设计来进一步获得细粒度的分割。综合评估显示了我们在知名基准测试中的最先进性能。

此外,基于所提出的交互模型,我们为实际的分割任务开发了一种有效的交互式分割工具,例如 图像标记。该工具不仅生成分割掩码,还允许用户调整掩码的多边形顶点以进一步提高精度。因此,该工具根据不同的实际任务为注释准确性提供了灵活的选择。

我们的贡献总结如下:

  • 我们提出了一种新颖的交互架构,通过早晚融合充分利用交互和图像信息。交互式点击的增强防止了网络上的特征稀释,然后使其能够有效地响应点击。
  • 我们利用网络产生的对象边缘来提高分割稳定性。通过从粗到细的网络设计,综合实验表明我们的方法在多个基准测试中达到了最先进的性能。
  • 我们开发了一种高效的交互式分割工具,支持交互式注释和多边形框编辑。我们的工具还支持多场景和各种标签格式。

相关工作

交互式分割任务旨在以最少的用户交互获得对象的准确掩码。交互信息可以是点击、划痕、轮廓、边界框、短语等。根据信息建模的类型,交互式图像分割算法有两个研究分支。

基于优化的方法 其中大部分是传统方法,分为四类:1) 基于轮廓的方法 [42, 43, 11, 3, 25], 2) 基于图形的方法 [9, 8, 34], 3) 基于随机游走的方法 [15, 14, 5] 和 4) 区域合并方法 [ 2, 47, 46]。作为一种基于轮廓的方法,主动轮廓模型(ACM)[44]构建并优化能量方程,直到闭合曲线上的力减小到零。基于 Graphcut 的方法 (GC) [9, 8] 利用 min-cut/max-flow 算法来最小化能量函数。基于随机游走的方法 (RW) [15, 14] 以像素为顶点,以邻域关系为边来构建无向图。区域合并方法(RM)由用户交互种子初始化,然后通过同质性标准收集相似的点和区域。

传统方法有共同的缺点。这些方法的泛化能力较差,仅适用于特定场景。此外,它们对初始交互信息很敏感,需要高质量的交互而没有嘈杂的输入。

基于深度学习的方法:徐等人[52]首先引入深度学习来解决交互式分割问题。他们将交互式点击转换为距离图,然后将距离图与原始图像一起作为输入来微调 FCN [35]。之后,Maninis 等人 [40] 将对象的极值点作为交互信息,并利用 DeepLabv2 [12] 作为分割模型。激活优化已应用于反向传播细化方案 (BRS) [21],该方案通过采用 L-BFGS 算法校正错误标记的像素。然而,优化是耗时的。不久之后,提出了 Feature-BRS [49] 来改进优化方案并加快交互过程。错误标记的像素将通过从网络中间修改特征的辅助尺度和偏差来纠正。Kontogianni 等人[24] 通过在测试时优化模型参数来调整目标对象的掩码。索菲尤克等人[50] 通过使用先前的掩码输出应用了迭代训练过程,从而提高了分割精度。

然而,这些方法在评估过程中高度依赖后处理或额外的优化方案,这需要额外的时间和计算。此外,它们对新的点击很敏感,导致分割掩码不稳定。

提出的方法

在这项工作中,我们提出了一种新颖的交互式分割架构,它充分利用了点击次数和连续点击次数的关系。与之前在第一层将图像和点击结合在一起的方法相比,我们提出的方法 1) 利用单独的分支来增强点击的特征,使网络能够更好地响应交互信息; 2)应用边缘掩码作为网络的先验信息,稳定注释。

网络架构

如图 2 所示,所提出的架构由两部分组成,输入基础分割模型(CoarseNet)和细化模型(FineNet)。对于网络输入,边缘掩码和正/负点击由交互式分支编码。
在这里插入图片描述
粗网 我们利用 HRNet-18 [51] 作为主干和 OCRNet [54] 作为分割头。该架构已被证明非常适合语义分割任务。与通用分割模型中的单个图像分支不同,我们在主干中添加了一个交互分支来处理正面点击、负面点击以及边缘掩码。一开始,边缘掩码被初始化为一个与输入图像大小相同的零图。接收到用户点击后,通过分割结果估计边缘掩码,然后作为输入的一部分。为了获得准确的边缘掩码,我们在分割头中为边缘约束添加了一个辅助块。图像与交互分支的融合细节将在3.2节介绍。
精网 我们利用 FineNet 模块进一步细化粗分割掩码。该模块以三部分作为输入,CoarseNet 的输出、原始图像和用户点击,其中图像和用户点击与 CoarseNet 中的部分输入相同。请注意,为了更好的可视化,我们没有将它们连接到图 2 中的 FineNet,而它们在我们的实现中是连接的。为了提高计算效率,我们在 FineNet 中使用了三个具有轻量级操作的多孔卷积块。多孔卷积还可以在高分辨率特征上获得大的感受野,从而可以获得更多的上下文信息并提高输出的质量。

边缘引导流

点击编码:交互信息包含正负点击坐标。正面点击强调目标对象,负面点击隔离废弃区域。为了实现直觉并提供给网络,需要将点击

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值