【CVPR2024】Few-Shot Object Detection with Foundation Models
机构:哥伦比亚大学、中佛罗里达大学
作者简介:Ser-Nam Lim,马里兰大学帕克分校博士学位,2018年-2023年在Meta(前身Facebook)参与计算机视觉、NLP和其他AI领域的研究,研究内容主要是确保航空和电力行业的安全、检测Meta平台上的错误信息,最近专注于AI用于对用户内容的推荐,包括大语言模型(LLM)和计算机视觉交叉点的搜索引擎,2023年秋季加入中佛罗里达大学。代表工作为Visual prompt tuning。
本文主要目的是提高小样本目标检测的精度,用DINOv2预训练的模型作为视觉backbone,使用大语言模型(LLM)来对类别、查询图像这两种输入信息进行上下文小样本学习。使用精心设计的语言指令提示LLM来为每个候选区(proposal)进行分类,所使用的上下文信息包括proposal-proposal关系、proposal-class关系、class-class关系。所提出的FM-FSOD方法在多个FSOD基准数据集上取得了SOTA性能。
文章贡献/创新点
- 文章研究基于基础模型的小样本目标检测,重点关注视觉特征提取和上下文proposal分类。
- 文章使用了基于DINOv2的全Transformer检测框架实现对大量样本和小样本类别的高泛化性。
- 使用大语言模型简化query和support之间的建模,自动学习丰富的上下文信息。
- 在PASCAL VOC和MSCOCO小样本评测基准上取得了SOTA性能。
小样本目标检测(FSOD)任务定义
FSOD任务有基类 C b a s e C_{base} Cbase和新类 C n o v e l C_{novel} Cnovel两种类别, C = C b a s e ∪ C n o v e l C=C_{base}\cup C_{novel} C=Cbase∪Cnovel并且 C b a s e ∩ C n o v e l = ∅ C_{base}\cap C_{novel}=\emptyset Cbase∩Cnovel=∅,基类有足够多的样本而新类只有少量样本。对于 K K K-shot小样本任务,数据集中的每个新类只有 K K K个检测框标注,通常 K = 1 , 3 , 5 , 10 , 30 K=1,3,5,10,30 K=1,3,

最低0.47元/天 解锁文章
3561

被折叠的 条评论
为什么被折叠?



