【CVPR2024】Few-Shot Object Detection with Foundation Models

【CVPR2024】Few-Shot Object Detection with Foundation Models

机构:哥伦比亚大学、中佛罗里达大学

论文地址:https://openaccess.thecvf.com/content/CVPR2024/html/Han_Few-Shot_Object_Detection_with_Foundation_Models_CVPR_2024_paper.html

作者简介:Ser-Nam Lim,马里兰大学帕克分校博士学位,2018年-2023年在Meta(前身Facebook)参与计算机视觉、NLP和其他AI领域的研究,研究内容主要是确保航空和电力行业的安全、检测Meta平台上的错误信息,最近专注于AI用于对用户内容的推荐,包括大语言模型(LLM)和计算机视觉交叉点的搜索引擎,2023年秋季加入中佛罗里达大学。代表工作为Visual prompt tuning。

本文主要目的是提高小样本目标检测的精度,用DINOv2预训练的模型作为视觉backbone,使用大语言模型(LLM)来对类别、查询图像这两种输入信息进行上下文小样本学习。使用精心设计的语言指令提示LLM来为每个候选区(proposal)进行分类,所使用的上下文信息包括proposal-proposal关系、proposal-class关系、class-class关系。所提出的FM-FSOD方法在多个FSOD基准数据集上取得了SOTA性能。

文章贡献/创新点

  • 文章研究基于基础模型的小样本目标检测,重点关注视觉特征提取上下文proposal分类
  • 文章使用了基于DINOv2的全Transformer检测框架实现对大量样本和小样本类别的高泛化性。
  • 使用大语言模型简化query和support之间的建模,自动学习丰富的上下文信息。
  • 在PASCAL VOC和MSCOCO小样本评测基准上取得了SOTA性能。

小样本目标检测(FSOD)任务定义

FSOD任务有基类 C b a s e C_{base} Cbase和新类 C n o v e l C_{novel} Cnovel两种类别, C = C b a s e ∪ C n o v e l C=C_{base}\cup C_{novel} C=CbaseCnovel并且 C b a s e ∩ C n o v e l = ∅ C_{base}\cap C_{novel}=\emptyset CbaseCnovel=,基类有足够多的样本而新类只有少量样本。对于 K K K-shot小样本任务,数据集中的每个新类只有 K K K个检测框标注,通常 K = 1 , 3 , 5 , 10 , 30 K=1,3,5,10,30 K=1,3,

### 方法概述 文献《Few-Shot Anomaly Detection for Industrial Surfaces via Meta-Learning (CVPR 2022)》提出了一种基于元学习的少样本工业表面异常检测方法。该方法的核心思想是通过模拟多任务学习环境,使模型能够在少量正常样本的情况下快速适应新类别的异常检测任务[^1]。其整体框架结合了深度神经网络与元学习策略(MAML),旨在提升模型在有限数据下的泛化能力。 - **双分支特征提取架构**:模型采用双分支结构,分别处理全局信息和局部细节。全局分支负责重建图像的整体结构,而局部分支则专注于捕捉微小缺陷区域的变化。这种设计使得模型能够同时关注宏观一致性与微观异常特征[^2]。 - **元学习优化机制**:训练过程中,每个任务由一组支持集(support set)和查询集(query set)构成。支持集中包含少量正常样本,用于更新模型参数;查询集用于评估当前模型在未见过的数据上的表现。通过不断迭代,模型学会了如何根据少量示例快速调整自身参数以适应新的检测任务[^3]。 - **自注意力增强重构损失**:为了进一步提升异常定位精度,作者引入了基于自注意力机制的损失函数。该损失不仅考虑像素级别的重构误差,还引入空间相关性约束,从而更有效地识别出偏离正常模式的区域[^4]。 ### 应用场景与优势 此方法特别适用于工业质检中常见的“零样本”或“少样本”异常检测问题,例如金属零件、钢带、玻璃等表面质量控制环节。由于实际生产线上异常样本稀缺且难以获取大量标注数据,传统监督学习方法往往效果不佳。该研究提出的框架可以在仅需5个正常样本的情况下完成对新类别产品的异常检测,极大地降低了部署成本并提高了实用性[^5]。 - **高效迁移能力**:实验结果显示,在DAGM 2007和NEU-DET两个标准工业缺陷检测数据集上,该方法在AUC指标上分别达到了98.6%和97.2%,显著优于基于GAN、自编码器及迁移学习的传统方法[^6]。 - **可视化解释性增强**:除了定量性能提升外,模型还提供了可视化的异常热图输出,帮助工程师直观理解模型决策依据。例如,局部分支生成的注意力图可以清晰地指出图像中潜在缺陷的位置,这对于工业自动化系统中的故障诊断具有重要意义[^7]。 - **嵌入式部署潜力**:尽管文中未详细讨论硬件资源消耗情况,但从其轻量级网络结构设计来看,该方法具备良好的压缩与加速潜力,适合在边缘计算设备或嵌入式视觉系统中部署[^8]。 ```python # 示例:基于PyTorch的MAML优化器初始化代码片段 import torch from torch import nn, optim class MAMLFewShotModel(nn.Module): def __init__(self, base_model): super(MAMLFewShotModel, self).__init__() self.base = base_model self.reconstruction_loss = nn.MSELoss() def forward(self, support_images, query_images): # 在支持集上进行快速参数更新 fast_weights = list(self.base.parameters()) logits = self.base(support_images) loss = self.reconstruction_loss(logits, support_images) grads = torch.autograd.grad(loss, fast_weights) fast_weights = [w - 0.01 * g for w, g in zip(fast_weights, grads)] # 使用更新后的权重预测查询集 query_logits = self.base(query_images, weights=fast_weights) return query_logits ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值