视频讲解1:https://www.bilibili.com/video/BV1sgqrB7Ei9/?pop_share=1
视频讲解2:https://www.douyin.com/video/7585941647645560074
论文下载:https://arxiv.org/abs/2203.08354
代码下载:https://github.com/flyinglynx/Bilinear-Matching-Network
https://github.com/KeepTryingTo
基于Zero-Shot的计数算法详解(T2ICount: Enhancing Cross-modal Understanding for Zero-Shot Counting)
统一的人群计数训练框架(PyTorch)——基于主流的密度图模型训练框架
算法VLCount详解(VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting)
人群计数中常用数据集的总结以及使用方式(Python/PyTorch)
基于Zero-Shot的目标计数算法详解(Open-world Text-specified Object Counting)
基于zero-shot目标计数方法详解(Zero-Shot Object Counting)
基于Transformer的目标统计方法(CounTR: Transformer-based Generalised Visual Counting)
基于zero-shot目标统计算法详解(Zero-shot Object Counting with Good Exemplars)
本文介绍了一种基于Zero-Shot的计数算法框架,针对现有方法在相似性度量和特征表示方面的局限性进行改进。现有方法主要采用固定的相似性度量,难以处理类内变化和背景噪声。提出的BMNet框架引入可学习的双线性相似性度量,通过自相似性模块增强特征鲁棒性,并采用动态相似性度量和直接监督策略。BMNet+进一步优化表示、比较和学习三个层面,利用自注意力机制聚合信息,引入通道注意力动态聚焦关键特征,并通过相似性损失直接约束相似度图。实验验证了该方法在计数精度上的优势。
目录

现有方法的局限性

现有的类无关计数方法(如 GMN, FamNet, CFOCNet)普遍遵循一个“提取-匹配”的流程:首先提取示例图像和查询图像的特征,然后通过计算特征之间的相似度来推断物体数量。
固定的相似性度量
现有方法主要关注特征表示(使用预训练或可学习的特征提取器),但在计算相似度时,却采用了固定的、预定义的度量方式(如固定的内积运算)。这种固定的度量会导致相似度匹配结果包含大量噪声(如背景被错误激活、目标区域响应弱),从而严重影响最终的计数精度。
特征表示对类内变化的鲁棒性不足
提出的方法
基础模型:BMNet:BMNet 是该框架的一个基础实现,其主要创新点在于:•可学习的双线性相似性度量:取代固定的内积,BMNet 使用一个可学习的双线性函数(公式1)来计算相似度。这使得模型能够捕捉特征通道间更灵活的交互关系,从而学习到一个更强大的相似性度量。
增强模型:BMNet+:BMNet+ 进一步从三个层面深化了相似性建模,体现了该框架的核心思想:表示:通过自相似性增强特征鲁棒性;方法:引入一个自相似性模块,利用自注意力机制让每个实例的特征从同一图像中其他同类实例的特征中聚合信息。这相当于为每个实例提供了关于尺度、视角等的互补线索,从而增强特征对类内变化的鲁棒性。
比较:动态相似性度量,方法:BMNet+ 为相似性度量引入了动态性。它通过一个通道注意力机制(类似SENet)为每个示例生成特定的注意力权重,从而在计算相似度时能动态地聚焦于该示例最关键的视觉模式。
学习:对相似图进行直接监督,方法:除了最终计数结果的监督信号,BMNet+ 增加了一个相似性损失。该损失函数受度量学习启发,直接对中间生成的相似度图进行约束:拉近示例与查询图像中目标区域的相似度(视为信号),同时推远示例与背景区域的相似度(视为噪声)。
具体方法


双线性匹配网络和特征提取器

学习双线性相似性度量,统计模型和监督信号

学习动态的相似性评估


监督相似性map

自相似模块

尺度嵌入

实验结果
综合比较

消融实验


可视化


被折叠的 条评论
为什么被折叠?



