类别无关目标统计计数—(Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting)

视频讲解1:https://www.bilibili.com/video/BV1sgqrB7Ei9/?pop_share=1

视频讲解2:https://www.douyin.com/video/7585941647645560074

论文下载:https://arxiv.org/abs/2203.08354

代码下载:https://github.com/flyinglynx/Bilinear-Matching-Network

 https://github.com/KeepTryingTo

基于Zero-Shot的计数算法详解(T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting)

统一的人群计数训练框架(PyTorch)——基于主流的密度图模型训练框架

算法VLCount详解(VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting)

人群计数中常用数据集的总结以及使用方式(Python/PyTorch)

基于Zero-Shot的目标计数算法详解(Open-world Text-specified Object Counting)

基于zero-shot目标计数方法详解(Zero-Shot Object Counting)

基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)

基于zero-shot目标统计算法详解(Zero-shot Object Counting with Good Exemplars)

        本文介绍了一种基于Zero-Shot的计数算法框架,针对现有方法在相似性度量和特征表示方面的局限性进行改进。现有方法主要采用固定的相似性度量,难以处理类内变化和背景噪声。提出的BMNet框架引入可学习的双线性相似性度量,通过自相似性模块增强特征鲁棒性,并采用动态相似性度量和直接监督策略。BMNet+进一步优化表示、比较和学习三个层面,利用自注意力机制聚合信息,引入通道注意力动态聚焦关键特征,并通过相似性损失直接约束相似度图。实验验证了该方法在计数精度上的优势。

目录

现有方法的局限性

固定的相似性度量

特征表示对类内变化的鲁棒性不足

提出的方法

具体方法

双线性匹配网络和特征提取器

学习双线性相似性度量,统计模型和监督信号

学习动态的相似性评估

监督相似性map

自相似模块

尺度嵌入

实验结果

综合比较

消融实验

可视化


现有方法的局限性

        现有的类无关计数方法(如 GMN, FamNet, CFOCNet)普遍遵循一个“提取-匹配”的流程:首先提取示例图像和查询图像的特征,然后通过计算特征之间的相似度来推断物体数量。

固定相似性度量

        现有方法主要关注特征表示(使用预训练或可学习的特征提取器),但在计算相似度时,却采用了固定的、预定义的度量方式(如固定的内积运算)。这种固定度量会导致相似度匹配结果包含大量噪声(如背景被错误激活、目标区域响应弱),从而严重影响最终的计数精度

特征表示对类内变化的鲁棒性不足

        现实场景中,同一类别的物体可能存在姿态、尺度、光照等巨大差异(类内变化)。而之前的特征表示方法未能有效应对这种变化,影响了相似度匹配的准确性。

提出的方法

        基础模型:BMNetBMNet 是该框架的一个基础实现,其主要创新点在于:可学习的双线性相似性度量:取代固定的内积,BMNet 使用一个可学习的双线性函数(公式1)来计算相似度。这使得模型能够捕捉特征通道间更灵活的交互关系,从而学习到一个更强大的相似性度量。

        增强模型:BMNet+BMNet+ 进一步从三个层面深化了相似性建模,体现了该框架的核心思想表示:通过自相似性增强特征鲁棒性方法:引入一个自相似性模块利用自注意力机制让每个实例的特征从同一图像中其他同类实例的特征中聚合信息。这相当于为每个实例提供了关于尺度、视角等的互补线索,从而增强特征对类内变化的鲁棒性

        比较:动态相似性度量方法BMNet+ 为相似性度量引入了动态性。它通过一个通道注意力机制(类似SENet)为每个示例生成特定的注意力权重,从而在计算相似度时能动态地聚焦于该示例最关键的视觉模式。

        学习:对相似图进行直接监督方法:除了最终计数结果的监督信号,BMNet+ 增加了一个相似性损失该损失函数受度量学习启发,直接对中间生成的相似度图进行约束:拉近示例与查询图像中目标区域的相似度(视为信号),同时推远示例与背景区域的相似度(视为噪声)。

具体方法

双线性匹配网络和特征提取器

学习双线性相似性度量,统计模型和监督信号

学习动态的相似性评估

监督相似性map

自相似模块

尺度嵌入

实验结果

综合比较

消融实验

可视化

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值