CVPR 2024 | SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

最新推荐文章于 2025-03-05 22:12:10 发布

有为少年

最新推荐文章于 2025-03-05 22:12:10 发布

阅读量2.2k

点赞数 21

分类专栏：深度学习 # 语义分割文章标签：人工智能深度学习计算机视觉卷积神经网络神经网络开放词汇分割

本文链接：https://blog.youkuaiyun.com/P_LarT/article/details/137677438

版权

文章介绍了一种名为SED的模型，它利用ConvNeXt-B和开放词汇的CLIP能力，在多个数据集上展示了在准确性和效率上的优势。模型特点包括分层编码器生成costmap、渐进融合解码器和类别早期拒绝策略，有效提升了性能和推理速度。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CVPR 2024 - SED - A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation

论文：https://arxiv.org/abs/2311.15537
代码：https://github.com/xb534/SED
原始文档：https://github.com/lartpang/blog/issues/16

这篇文章提出了一种名为 SED 的简单编码器解码器，用于结合 CLIP 的 open-vocabulary 能力实现了开放词汇语义分割。在多个语义分割数据集上的实验证明了 SED 在开放词汇准确性和效率方面的优势。当使用 ConvNeXt-B 时，SED 在 ADE20K 上的 mIoU 得分为 31.6%，并且在单个 A6000 上每张图像只需 82 毫秒。

[!note]
本文的方法受启发于最近的 CAT-Seg（通过 cost map 微调图像编码器没有损坏 CLIP 的 open-vocabulary 能力），主要差异包括三点：

本文是一个不需要额外视觉 encoder 的更加简单的框架，同时具有更好的性能和更快的推理速度。

本文利用分层图像编码器生成 cost map 并且执行跳层融合，这显著提升了性能，并且计算成本与图像尺寸呈线性。

本文在解码器中引入了一个简单的大核操作，并逐步融合特征，同时设计了一个 category early rejection strategy 来加速推理同时不损害性能。