集智书童 | 干翻SAM,CPU也能玩转高精度分割 | Inter2Former四大创新模块让密集Token处理速度飙升2.25倍

Inter2Former让CPU实现高精度分割提效

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:干翻SAM,CPU也能玩转高精度分割 | Inter2Former四大创新模块让密集Token处理速度飙升2.25倍

精简阅读版本

本文主要解决了什么问题

  1. 1. 交互式分割中密集 Prompt Token 的计算效率问题:尽管密集 Prompt Token 能够提升分割精度和细节保留能力,但其在CPU设备上的推理速度较慢,限制了其在大规模众包标注等资源受限场景中的应用。

  2. 2. 高精度与高效率之间的权衡问题:现有的主流方法如 Segment Anything Model(SAM)采用 Sparse Prompt Token 实现了快速推理,但牺牲了分割质量;而 InterFormer 等方法虽然精度高,但效率低。

  3. 3. 交互式分割过程中计算资源的不均衡分配问题:现有方法在处理过程中对所有 Token 均匀分配计算资源,未针对目标边界区域进行优化,导致整体效率和精度的次优。

本文的核心创新是什么

  1. 1. 动态 Prompt 嵌入(DPE):通过动态裁剪感兴趣区域,避免处理背景 Token 的计算开销,从而提升效率。

  2. 2. 动态混合注意力(DHA):根据边界信息将 Token 路由至全注意力(O(N²))或轻量级的 BSQ 注意力(O(N)),实现计算资源的差异化分配。

  3. 3. 混合专家混合(HMoE):在 FFN 模块中引入自适应计算策略,并通过 Token 重排优化 CPU 上的并行 MoE 计算,显著降低推理延迟。

  4. 4. 动态局部上采样(DLU):作为 DPE 的逆操作,仅在检测到的目标区域执行细粒度上采样,减少不必要的计算。

  5. 5. BSQ 注意力机制(BSQA):基于二进制球面量化(BSQ)提出新的注意力机制,在保持性能的同时实现线性复杂度。

结果相较于以前的方法有哪些提升

  1. 1. 在 CPU 设备上实现了 SOTA 性能:Inter2Former 在高精度交互式分割基准(如 HQSeg-44K、DAVIS)上取得了最先进的分割精度,如更低的 NoC@90/95 和更高的 5-mIoU。

  2. 2. 推理效率显著提升

    • • HMoE 相较于普通 MoE 实现,在 CPU 上推理时间减少了 56% 至 85%。

    • • Inter2Former 在与 InterFormer 相比时,显著降低了推理时间,同时保持了更高的精度。

  3. 3. 兼顾高精度与高效推理:在与基于 Sparse Prompt Token 的模型(如 SAM、HRSAM++)对比时,Inter2Former 在精度上显著领先;在与基于密集 Token 的模型(如 SegNext)对比时,保持了更高的效率。

本文的局限性

  1. 1. 依赖高质量的边界检测信息:DHA 和 DLU 的性能在很大程度上依赖于前一步分割结果的边界质量,若初始边界不准确,可能影响后续计算分配和上采样效果。

  2. 2. 模型复杂度较高:多个模块(DPE、DHA、HMoE、DLU)的引入增加了模型结构的复杂性,可能影响实际部署和维护。

  3. 3. 对 CPU 并行化依赖较强:虽然在 CPU 上表现优异,但其优化策略(如 Token 重排)可能难以直接迁移到其他硬件平台(如 GPU 或边缘设备)。

  4. 4. 训练复杂度较高:由于引入了 BSQA、HMoE 等新机制,训练过程需要额外的策略(如量化注意力训练、蒸馏),可能增加训练成本和调参难度。

深入阅读版本

导读

交互式分割(IS)通过从用户 Prompt 中分割目标区域来提高标注效率,在现实场景中具有广泛应用。当前方法面临一个关键权衡:密集 Token 方法虽然能够实现更高的精度和细节保留,但在CPU设备上处理速度过慢;而Segment Anything模型(SAM)则通过Sparse Prompt Token 实现了快速推理,但牺牲了分割质量。本文提出Inter2Former通过优化密集 Token 处理中的计算分配来应对这一挑战,引入了四个关键改进。首先,作者提出了动态 Prompt 嵌入(DPE),能够自适应地仅处理感兴趣区域,同时避免来自背景 Token 的额外开销。其次,作者引入了动态混合注意力(DHA),利用先前的分割 Mask 将 Token 路由到全注意力(O(N^2))(用于边界区域)或作者提出的BSQ注意力(O(N^2))(用于非边界区域)。第三,作者开发了混合专家混合(HMoE),在FFN模块中应用类似的自适应计算策略,并采用CPU优化的并行处理。最后,作者提出了动态局部上采样(DLU),这是DPE的逆向操作,通过轻量级MLP定位目标,并在检测到的区域仅执行细粒度上采样。在用于高精度IS基准的实验结果表明,Inter2Former在CPU设备上实现了高效且SOTA的性能。

1. 引言

交互式分割(IS)[5, 18, 23, 32]通过从少量标注者 Prompt 中分割感兴趣区域,极大地提升了图像分割标注流程。这些方法扩展了图像分割在现实世界中的应用,例如医学影像[2]、工业缺陷检测[3]和自动驾驶[4]。近年来,Segment Anything Model(SAM)[23]成为IS领域的里程碑,在实时、高质量的分割方面表现出色,尤其是在主流基于点击的IS中。

SAM [23] 和 InterFormer [18] 同时为该任务引入了一种类似的二阶段流程:一个预处理阶段,使用编码器将图像编码为token,随后是一个交互阶段,解码器处理这些token以及用户 Prompt 来生成分割 Mask 。虽然这些模型共享相似的编码器,但在解码器设计上存在显著差异。InterFormer [18] 将点击转换为密集 Prompt token以增强空间感知能力,并实现更优的分割精度。然而,这种方法导致高计算成本,使其在CPU设备上运行速度极慢,对大规模众包标注且GPU资源有限的场景构成了显著限制。相比之下,SAM [23] 使用Sparse Prompt token进行高效的交叉注意力机制和更快的推理,但牺牲了空间感知能力和边界精度。随后,SegNext [34] 通过引入密集 Prompt token改进了SAM的解码器,提升了精度但进一步增加了计算需求。HRSAM [19] 专注于升级SAM的编码器,同时保留其高效但精度较低的Sparsetoken解码器。尽管采取了这些措施,但在计算约束下实现高精度交互式分割仍然具有挑战性 [19, 34],特别是在高分辨率图像中,性能与效率的权衡更为严重。

为解决上述挑战,作者研究了一种基于密集 Prompt Token 的方法[18, 34],同时保持高效的推理能力。作者观察到密集 Prompt Token 的低效性源于交互式分割(IS)过程中资源分配的次优性。具体而言,现有模型在整个IS过程中对所有 Token 进行均匀的计算分配。然而,主要目标区域通常在最初的几次点击中确定,而后续大多数用户点击则专注于细化目标边界。因此,计算资源应优先分配给边界区域。这种均匀分配浪费了对已确定的主要目标区域的计算资源,同时对关键边界区域提供的计算资源不足,导致精度和效率的次优性。此外,IS过程中的每一步分割结果都包含边界线索,但现有模型仅将分割结果作为附加特征[18, 23, 24, 32]来优化下一次交互,未能充分利用边界信息进行计算优化。

在本文中,作者介绍了Inter2Former,旨在优化计算分配以实现高效的超高精度图像分割。首先,作者提出了动态 Prompt 嵌入(DPE),通过动态区域裁剪仅处理感兴趣区域,从而避免背景 Token 的计算开销。其次,作者提出了动态混合注意力(DHA),以差异化分配计算资源给动态检测到的边界 Token 和非边界 Token 。在DHA(图1)中,边界 Token 通过传统的全注意力(FA)[45]进行处理,而非边界 Token 则采用作者轻量级的BSQ注意力(BSQA)。作者的BSQA受[30]启发,应用二进制球量化[54]压缩键值对,将非边界 Token 的复杂度从降低至。第三,作者在FFN模块中提出了混合专家混合(HMoE),以动态地将边界和非边界 Token 路由到MoE或传统FFN,以优化计算分配。此外,作者通过重新排列 Token 来优化CPU上的MoE计算,以增强Low-Level矩阵计算并减少延迟。第四,作者提出了动态局部上采样(DLU)以加速 Mask 预测,其功能是DPE的逆操作。DLU首先采用轻量级MLP和Canny算子定位感兴趣区域,然后在这些区域内进行上采样,以最小的计算成本实现细粒度分割。

作者在高精度交互式分割基准测试 [19, 21, 34, 40] 上评估了 Inter2Former。Inter2Former在Sparse Token 模型 [19, 23] 上实现了SOTA性能,并略微增加了延迟。CPU优化的HMoE相较于普通的MoE实现将推理时间减少了56%至85%。

作者的主要贡献如下:

  • • 作者提出了DHA,它根据先前的分割结果将 Token 分配给全注意力(FA)或作者新型的BSQ注意力(BSQA),以优化计算分配。

  • • 作者提出了HMoE以实现更好的计算分配,通过 Token 重排优化CPU上的并行MoE计算,相较于普通的MoE实现,将推理延迟降低了56%至85%。

  • • 作者提出了DPE和DLU用于高效的 Prompt 编码和 Mask 预测。DPE动态裁剪感兴趣区域,而DLU通过使用轻量级MLP执行逆操作,识别目标区域以进行选择性上采样和细粒度分割。

  • • Inter2Former在CPU设备上保持高效率的同时实现了SOTA。

2. 相关工作

交互式分割。交互式分割最初在DIOs [50] 中与深度学习相结合,将深度神经网络引入该领域,并建立了主流点击式交互的标准训练和评估协议。后续研究通过提升性能和效率推动了该领域的发展 [1, 5, 18, 20, 27, 29, 32, 33, 37, 42, 49, 53]。SAM [23] 的引入通过特征重用显著提升了推理效率,并启发了众多下游应用 [25, 36, 38]。这一演进导致了高精度交互式分割 [19, 34, 46] 的出现,其旨在精确标注数据集上实现更优的精度 [21, 40]。

向量量化表示学习。向量量化变分自编码器(VQ-VAE)[44]通过可学习的码本量化开创了离散表示学习。后续工作通过感知损失[10]、归一化[51]、隐式码本[39]、分解量化[9]和动态更新[55]等方法解决了码本坍塌问题。尤为突出的是,BSQ[54]通过在超球面上投影和二值化潜在向量,引入了一种无参数方法,为视觉Transformer实现了高效的 Token 化。

高效注意力机制。注意力机制[45]彻底改变了计算机视觉领域[8, 11, 22, 47]。然而,其二次方计算复杂度促使人们不断探索高效解决方案。先前研究通过局部窗口[35]、Sparse模式[13]和层次结构[15, 26]来提升效率。在实现层面,Flash Attention[6, 7]和EMA[41]通过优化的计算调度来减少内存占用。最近,Transformer-VQ[30]通过向量量化表示键,实现了线性时间复杂度,其中注意力计算仅需在 Query 和固定大小的码本之间进行,而非在整个键序列上。

3. 方法

3.1. 背景

3.2. Inter2Former概述

3.3. 动态 Prompt 嵌入

3.4. 动态混合注意力

3.5. 二元球面量化注意力

受VQ-Transformer[30]启发,作者提出了BSQA,通过引入更有效的二进制球形量化(BsQ)方案来增强VQ注意力机制,同时保持其线性时间复杂度。下面作者将分别详细阐述VQ注意力机制、BSQ以及作者提出的BSQA。

3.6. 专家混合混合体

3.7. 动态局部上采样

3.8. 训练策略

BSQA训练。在训练过程中,作者使用公式14在执行完整的FA计算时,仅用量化后的键向量替换注意力计算中的键。这种训练策略鼓励量化后的注意力接近标准注意力的行为。在推理时,作者切换到公式8中的高效计算方案以实现线性时间复杂度。

4. 实验

第4.1节详细介绍了作者的实现。第4.2节描述了数据集和训练协议。第4.3节展示了主要的定量比较。第4.4节分析了作者关键组件的计算效率。此外,作者在补充材料中提供了代码。

4.1. 实现细节

4.2. 实验设置

数据集。基于最近的高精度交互式分割基准测试[19, 34],作者在COCO[28]、LVIS[14]和HQSeg-44K[21]数据集上训练模型。作者在HQSeg-44K验证集和DAVIS[40]上评估模型,这两个数据集都包含高质量标注的 Mask ,用于对高精度IS任务进行严格评估。

训练。遵循先前的高精度IS工作,作者采用两种训练协议进行全面评估。第一个协议遵循[34],作者在COCO和LVIS上训练160K次迭代,然后对HQSeg44K进行40K次迭代的微调。第二个协议涉及从SAM-ViT-Huge[21]进行蒸馏,作者首先使用MSE损失在COCO和LVIS的无标签图像上训练编码器160K次迭代以与SAM特征对齐,然后随机初始化Inter2Former解码器,并在HQSeg44K上训练完整模型80K次迭代。两种协议都利用先前工作的点击模拟[18, 24, 32]和NFL[24]来指导模型从点击生成与GT对齐的分割 Mask 。

评估。遵循标准评估协议[5, 18, 23, 24, 32, 34, 48, 52],在高精度IS任务[19, 34]中,通过NoC@90/95(在20次点击预算内达到90%或95% IoU所需的平均点击次数)和5-mIoU(五次点击后的mIoU)来衡量分割质量。在CPU设备上的效率评估中,作者采用两个指标:20-SPC(每点击秒数)[19]和Online SPC。20-SPC指标测量完成20次点击的平均时间,包括预处理开销(例如SAM方法中的图像编码)。相比之下,Online SPC捕捉交互过程中的单次点击延迟,不包括预处理时间。对于SAM之前的传统IS模型,这两个指标给出相同的值,因为它们不需要预处理步骤。

4.3. 主要结果

如表1所示,Inter2Former在所有评估指标上均实现了SOTA性能,同时保持了具有竞争力的效率。其卓越性能可归因于Inter2Former解码器中的密集 Token 设计。与继承SAM的Sparse Token 解码器的HRSAM++不同,Inter2Former的密集 Token 设计能够从零开始进行更有效的训练,尤其是在使用高质量数据集进行微调时尤为有益。在效率方面,虽然Inter2Former与HRSAM++相比存在略微更高的延迟,但它在与其他高精度方法如SegNext相比时仍保持显著的速率优势,同时实现了更高的精度。此外,Inter2Former在与快速SAM变体如EfficientSAM [48]相比时表现出具有竞争力的效率,并且与InterFormer [18]相比显著降低了推理时间。

4.4. 效率分析

作者使用目标 Mask 标注在COCO数据集上评估了作者提出的DPE、DHA和DLU的计算效率。多样的目标尺度为不同面积比下的效率分析提供了客观基准。此外,作者还分析了HMoE在不同专家数量下的效率。

DPE效率。如图3(a)所示,非DPE(具有相同的卷积架构)的延迟保持不变,而作者的DPE则随着面积比呈线性增加,但仍然保持显著的效率优势。值得注意的是,对于主要的小目标,DPE的延迟要求不到非DPE的25%。

DHA效率。如图3(b)所示,随着区域比例的增长,DHA的延迟呈现缓慢的线性上升。这种稳定趋势源于DHA对边缘的关注。虽然目标区域呈平方级增长,但边缘像素的数量增长较慢,从而即使在处理大型目标时也能实现高效处理。

HMoE效率。如图3(c)所示,作者比较了高效的并行HMoE与普通实现在不同专家数量下的表现。HMoE随着专家数量的增加表现出明显的加速效果,在64个专家时实现了85%的延迟减少。

DLU效率。如图3(d)所示,DLU作为DPE的倒数,表现出相似的速度模式。作者的DLU在相同结构下运行速度远快于Non-DLU。

每个模块性能的详细消融研究已提供在补充材料中。

4.5. 定性结果

如图4所示,Inter2Former在20次点击内实现了对挑战性细小结构的精确分割。

5. 结论

本文介绍了Inter2Former,一种用于高精度交互式分割的模型,旨在解决密集 Prompt Token 处理中性能与效率之间的关键权衡问题。通过提出的动态 Prompt 嵌入、动态混合注意力、混合专家混合和动态局部上采样等自适应计算分配机制,Inter2Former在保持效率的同时优化了性能,在CPU设备上实现了具有竞争力的速度和SOTA性能。

参考

[1]. Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值