本文是LLM系列文章,针对《SAM-CLIP:MERGING VISION FOUNDATION MODELS TOWARDS SEMANTIC AND SPATIAL UNDERSTANDING》的翻译。
摘要
公开可用的视觉基础模型(VFM),如CLIP和Segment Anything模型(SAM),正在迅速扩展。VFM由于其训练前的目标而被赋予了独特的能力。例如,CLIP擅长语义理解,而SAM专门用于分割的空间理解。在这项工作中, 我们介绍了一个简单的配方,可以有效地将VFM合并到一个统一的模型中,吸收他们的专业知识。我们提出的方法集成了多任务学习、持续学习技术和师生蒸馏。与传统的从头开始的多任务训练相比,这种策略需要显著降低计算成本。此外,它只需要最初用于训练单个模型的预训练数据集的一小部分。通过将我们的方法应用于SAM和CLIP,我们得出了SAM-CLIP:一个统一的模型,将SAM和CLIP的优势合并为一个骨干,使其适用于边缘设备应用。我们表明,SAM-CLIP学习更丰富的视觉表示,具有定位和语义特征,适用于广泛的视觉任务。与SAM和CLIP相比,SAM-CLIP在几个头部探测任务上获得了改进的性能。我们进一步表明,SAM-CLIP不仅保留了其前体模型的基本优势,而且引入了协同功能,最显著的是在零样本语义分割中,其中SAM-CLIP在5个基准上建立了新的最先进的结果。它在很大程度上优于专门为该任务设计的先前模型,包括Pascal VOC和COCO Stuff数据集的平均IoU改进分别为+6.8%和+5.9%。