CVPR 2024 - SED - A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation
- 论文:https://arxiv.org/abs/2311.15537
- 代码:https://github.com/xb534/SED
- 原始文档:https://github.com/lartpang/blog/issues/16
这篇文章提出了一种名为 SED 的简单编码器解码器,用于结合 CLIP 的 open-vocabulary 能力实现了开放词汇语义分割。在多个语义分割数据集上的实验证明了 SED 在开放词汇准确性和效率方面的优势。当使用 ConvNeXt-B 时,SED 在 ADE20K 上的 mIoU 得分为 31.6%,并且在单个 A6000 上每张图像只需 82 毫秒。
[!note]
本文的方法受启发于最近的 CAT-Seg(通过 cost map 微调图像编码器没有损坏 CLIP 的 open-vocabulary 能力),主要差异包括三点:
- 本文是一个不需要额外视觉 encoder 的更加简单的框架,同时具有更好的性能和更快的推理速度。
- 本文利用分层图像编码器生成 cost map 并且执行跳层融合,这显著提升了性能,并且计算成本与图像尺寸呈线性。
- 本文在解码器中引入了一个简单的大核操作,并逐步融合特征,同时设计了一个 category early rejection strategy 来加速推理同时不损害性能。
模型细节
SED 方法包括一个 hierarchical encoder-based cost map generation 和一个带有 category early rejection strategy 的 gradual fusion decoder。
Gradual Fusion Decoder | Category Early Rejection |
---|---|
![]() |
![]() |
- hierarchical encoder:不使用普通的直筒型 ViT 视觉编码器,而是基于分层的 ConvNeXt 视觉编码器,从而帮助更好地捕捉不同层次的空间信息,增强局部性,并且与输入大小成线性复杂度。利用其可以获得多层级特征图 F 2 , F 3 , F 4 , F 5 F_2, F_3, F_4, F_5 F2,F3,F4,F5。其中的 F 5 F_5 F5