开放词汇语义分割的简单基线方法
1. 引言
开放词汇语义分割是计算机视觉领域的一个重要任务,旨在对图像中的不同类别进行精确分割,并且能够处理未知类别的物体。本文提出了一种简单而有效的两阶段框架,利用预训练的视觉 - 语言模型来实现开放词汇语义分割。
2. 实验设置
2.1 模型训练与评估
- 若未特别说明,MaskFormer 模型仅在可见类上进行训练,训练和测试均使用 100 个掩码提议。
- 其他设置和超参数保持 MaskFormer 的原始设置不变。
- 默认使用带有 ViT - B/16 骨干网络的 CLIP。
- 文本提示调优时,提示随机初始化,使用 SGD 优化器训练可学习提示,学习率设为 0.02,按余弦学习率策略衰减,批量大小设为 32。
- 分别对 Pascal VOC 和 COCO Stuff 数据集训练 50 和 100 个 epoch。对于 Pascal VOC 2012 数据集,批量大小为 16,总训练迭代次数为 20K,其他设置与 COCO Stuff 数据集相同。
2.2 跨数据集设置比较
模型在 COCO Stuff 数据集上训练,然后在其他数据集上进行评估,无需微调。以下是不同方法在各数据集上的表现:
| 方法 | Cityscapes (19) | Pascal Context (59) | ADE20K (150) | ADE20K (847) |
| ---- | ---- | ---- | ---- | ---- |
| FCN | 2
超级会员免费看
订阅专栏 解锁全文
34

被折叠的 条评论
为什么被折叠?



