本文主要对论文《Crowd counting via scale-adaptive convolutional neural network》的核心思想进行简单介绍。
先来看一下效果:在Shanghai Tech数据集上(分为Part A和Part B两部分),关于这个数据集的介绍见下表:Part A 共有418张图片,图片的分辨率是不同的,每张图片上包含的人数最少有33个,最多包含3139; Part B 共有716张分辨率相同的图片。
关于这个数据集的评测用的是MAE(平均绝对误差)和MSE(均方误差) ,在下面会进行介绍。
网络的损失函数:通过计算估计的densitymap和对应ground truth之间的欧式距离如下:
式子中θ代表网络参数,N是训练图片数,
除了回归density map,论文中还考虑了如下的损失函数来计算head count loss:FY(Xi;θ)和Yi是估计的head count 和对应的ground truth,
下面介绍评价指标:MAE(平均绝对误差)和MSE(均方误差):FY(Xi;θ)和Yi是估计的head count 和对应的ground truth,