《Crowd Counting via Adversarial Cross-Scale Consistency Pursuit》解读

本文介绍了一种改进人群计数的方法,采用U-net生成网络设计密度图,利用对抗性损失减少模糊,提出跨尺度一致性正则化促进协同训练,解决传统方法中的尺度不一致和模糊问题。通过两个互补的密度图生成器,确保大图像和小图像的计数一致性。实验在四个数据集上展示了提升的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 使用的方法
    1. 使用了一个U-net的生成网络来设计生成密度图;
    2. 采用了一种对抗损失,将solution 映射到真实子空间内,从而减少了密度图估计的模糊效果;
    3. 另外,设计了一种新的一种,一致性调节方式,使得人群的总和,可以从小的图片中计算出来,再和全局图片来对比,使得数量一致;
    4. 最后这里是通过联合训练,通过两者的合作来提高密度估计性能。
  • 以往的缺点
    以往的人群记数是通过不同的卷积核来衡量大小
    1. 因此只有L2范数来优化模型;
    2. 对离群值和图像的敏感性不足,图像过于模糊;
    3. 而且,不同的卷积子网络之间没有协助,只是试图最小化自己的估计,导致在其他的尺度上性能不好,没有追求尺度的一致性问题;
    4. 此外,卷积核为滑动窗口设计,所以局部补丁的丢失,会影响全局。
  • 本文提出的创新
    1. 根据GANs在图像翻译上的思想,提出了一种对抗性损失,代替传统的L2范数损失,用于减轻optimization的模糊效应;
    2. 利用U-net 的多尺度架构,从而对于图像进行像素级翻译,即:一个像素点到密度图的像素点的映射。
    3. 提出了一种新的正则化器,用于校准跨尺度模型,并鼓励不同尺度的协同训练
    4. 使用两个互补密度图生成器,一个是大图像的输入,一个是将大图像切割后的小图像,通过大图像的记数=切割小图像记数的和,
  • 本文的思路
    1. pix2pix的思路被借鉴,G网络的输入为原始图像,输出为对应的密度图像,这里的G使用的思想是U-net,作为G的编解码器。
    2. 为了解决不同尺寸的问题,使用back-back的设计模式,设计了两个G,G(larg
boosting-crowd-counting-via-multifaceted-attention是一种通过多方面注意力提升人群计数的方法。该方法利用了多个方面的特征来准确估计人群数量。 在传统的人群计数方法中,往往只关注人群的整体特征,而忽略了不同区域的细节。然而,不同区域之间的人群密度可能存在差异,因此细致地分析这些区域是非常重要的。 该方法首先利用卷积神经网络(CNN)提取图像的特征。然后,通过引入多个注意力机制,分别关注图像的局部细节、稀疏区域和密集区域。 首先,该方法引入了局部注意力机制,通过对图像的局部区域进行加权来捕捉人群的局部特征。这使得网络能够更好地适应不同区域的密度变化。 其次,该方法采用了稀疏区域注意力机制,它能够识别图像中的稀疏区域并将更多的注意力放在这些区域上。这是因为稀疏区域往往是需要重点关注的区域,因为它们可能包含有人群密度的极端变化。 最后,该方法还引入了密集区域注意力机制,通过提取图像中人群密集的区域,并将更多的注意力放在这些区域上来准确估计人群数量。 综上所述,boosting-crowd-counting-via-multifaceted-attention是一种通过引入多个注意力机制来提高人群计数的方法。它能够从不同方面细致地分析图像,并利用局部、稀疏和密集区域的特征来准确估计人群数量。这个方法通过考虑人群分布的细节,提供了更精确的人群计数结果。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值