类别无关目标统计计数—（Represent, Compare, and Learn: A Similarity-Aware Framework for Class-Agnostic Counting）-优快云博客

本文介绍了一种基于Zero-Shot的计数算法框架，针对现有方法在相似性度量和特征表示方面的局限性进行改进。现有方法主要采用固定的相似性度量，难以处理类内变化和背景噪声。提出的BMNet框架引入可学习的双线性相似性度量，通过自相似性模块增强特征鲁棒性，并采用动态相似性度量和直接监督策略。BMNet+进一步优化表示、比较和学习三个层面，利用自注意力机制聚合信息，引入通道注意力动态聚焦关键特征，并通过相似性损失直接约束相似度图。实验验证了该方法在计数精度上的优势。

现有方法的局限性

现有的类无关计数方法（如 GMN, FamNet, CFOCNet）普遍遵循一个“提取-匹配”的流程：首先提取示例图像和查询图像的特征，然后通过计算特征之间的相似度来推断物体数量。

固定的相似性度量

现有方法主要关注特征表示（使用预训练或可学习的特征提取器），但在计算相似度时，却采用了固定的、预定义的度量方式（如固定的内积运算）。这种固定的度量会导致相似度匹配结果包含大量噪声（如背景被错误激活、目标区域响应弱），从而严重影响最终的计数精度。

特征表示对类内变化的鲁棒性不足

现实场景中，同一类别的物体可能存在姿态、尺度、光照等巨大差异（类内变化）。而之前的特征表示方法未能有效应对这种变化，影响了相似度匹配的准确性。

提出的方法

基础模型：BMNet：BMNet 是该框架的一个基础实现，其主要创新点在于：•可学习的双线性相似性度量：取代固定的内积，BMNet 使用一个可学习的双线性函数（公式1）来计算相似度。这使得模型能够捕捉特征通道间更灵活的交互关系，从而学习到一个更强大的相似性度量。

增强模型：BMNet+：BMNet+ 进一步从三个层面深化了相似性建模，体现了该框架的核心思想：表示：通过自相似性增强特征鲁棒性；方法：引入一个自相似性模块，利用自注意力机制让每个实例的特征从同一图像中其他同类实例的特征中聚合信息。这相当于为每个实例提供了关于尺度、视角等的互补线索，从而增强特征对类内变化的鲁棒性。