《Crowd Counting via Adversarial Cross-Scale Consistency Pursuit》解读

本文介绍了一种改进人群计数的方法,采用U-net生成网络设计密度图,利用对抗性损失减少模糊,提出跨尺度一致性正则化促进协同训练,解决传统方法中的尺度不一致和模糊问题。通过两个互补的密度图生成器,确保大图像和小图像的计数一致性。实验在四个数据集上展示了提升的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  • 使用的方法
    1. 使用了一个U-net的生成网络来设计生成密度图;
    2. 采用了一种对抗损失,将solution 映射到真实子空间内,从而减少了密度图估计的模糊效果;
    3. 另外,设计了一种新的一种,一致性调节方式,使得人群的总和,可以从小的图片中计算出来,再和全局图片来对比,使得数量一致;
    4. 最后这里是通过联合训练,通过两者的合作来提高密度估计性能。
  • 以往的缺点
    以往的人群记数是通过不同的卷积核来衡量大小
    1. 因此只有L2范数来优化模型;
    2. 对离群值和图像的敏感性不足,图像过于模糊;
    3. 而且,不同的卷积子网络之间没有协助,只是试图最小化自己的估计,导致在其他的尺度上性能不好,没有追求尺度的一致性问题;
    4. 此外,卷积核为滑动窗口设计,所以局部补丁的丢失,会影响全局。
  • 本文提出的创新
    1. 根据GANs在图像翻译上的思想,提出了一种对抗性损失,代替传统的L2范数损失,用于减轻optimization的模糊效应;
    2. 利用U-net 的多尺度架构,从而对于图像进行像素级翻译,即:一个像素点到密度图的像素点的映射。
    3. 提出了一种新的正则化器,用于校准跨尺度模型,并鼓励不同尺度的协同训练
    4. 使用两个互补密度图生成器,一个是大图像的输入,一个是将大图像切割后的小图像,通过大图像的记数=切割小图像记数的和,
  • 本文的思路
    1. pix2pix的思路被借鉴,G网络的输入为原始图像,输出为对应的密度图像,这里的G使用的思想是U-net,作为G的编解码器。
    2. 为了解决不同尺寸的问题,使用back-back的设计模式,设计了两个G,G(larg
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值