《DenseBox: Unifying Landmark Localization with End to End Object Detection》阅读笔记

本文介绍了一种名为DenseBox的一阶段目标检测方法,该方法特别优化了小目标和形态多变目标的检测精度。DenseBox通过图像金字塔增强不同尺度特征的提取,并结合人脸关键点定位提高召回率。此外,文章还详细介绍了其训练策略,包括损失函数的选择、正负样本平衡及landmark定位等关键技术。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 提出了一段式的目标检测结构;
  2. 提出了结合landmark的检测来提升检测精度;
  3. 主要针对通用目标检测网络在人脸检测时,对小目标和目标外形变化比较大时,表现比较弱的情况,densebox做了改进;
  4. densebox的基本流程是,首先对图像做金字塔操作,生成不同scale的图片,然后进入网络做下采样和上采样,最后输出featuremap(总的下采样为4),在featuremap做bbox回归和class confidence,最后做nms;
  5. 输出图片size是mn3,输出(m/4)*(n/4)*5,5个通道分别是= {ˆs, dx t = x i − x t , dy t = y i −y t , dx b = b t t b x i − x b , dy = y i − y b } ,分别代表的是feature这个位置的class confidence,bbox左上角点的delta_x,delta_y,右下角点的delta_x,delta_y;没有针对中点偏移的补偿量x_shift,y_shift,所以中心点应该是会有4个像素内的误差的。
  6. ground_truth生成:从原图中crop出face及周边背景的patch,然后resize这个patch到240240,在feature上是6060,然后将bbox的中心点为圆心生成一个半径为r=0.3的圆作为channel1的正样本(设定为1);
  7. Note that if multiple faces occur in one patch, we keep those faces as positive if they fall in a scale range(e.g. 0.8 to 1.25 in our setting) relative to the face in patch center. Other faces are treated as negative samples。???没看懂
  8. densebox可以看成是基于生成的featuremap的每个像素的感受野来判定正负样本的,如果这个像素的感受野里面有一个face的中心,那么就是正样本,否则就是负样本。
  9. 文中提到:In our implementation, we concatenate feature map from conv3 4 and conv4 4. The receptive field (or sliding window size) of conv3 4 is 48×48, almost the same size of the face size in training, and the conv4 4 have a much larger receptive field, around 118 × 118 in size, which could utilize global textures and context for detection. 作者详细计算过到每层的perception field,并且将与人脸大小的感受野的层与更大感受野的层进行了融合,可以得到更好的检测效果。
  10. 分类的loss和回归的loss都是L2的loss,作者也提到分类的loss使用cross entropy可能更好,但l2的loss已经足够好;
  11. 样本均衡,Balance Sampling,主要采用了两个方法:第一个方法是忽略正负样本过度区域,称为gray zone,是以正样本区域边缘的两个像素范围内的区间来定义的。第二个方法是Hard Negative Mining,首先将负样本像素中的loss按loss大小排序,选取前面的1%为hard-negative,然后保证每张图片中正负样本的数量是1:1,负样本的50%来源于hard-negative,另外的50%从non-hard negative中随机选取。这两种方法都是通过新增一个binary mask for each output pixel to indicate whether it is selected in training。
  12. 分类和回归loss的真值和预测值都是做了归一化的;The loss and output gradients must be scaled by the number of contributing pixels, so that both loss and output gradients are comparable in multi-task learning. loss都是除以参与运算的像素数量的,以求多任务的各个loss能够达到同样的数量级;
  13. Refine with Landmark Localization可以明显提升准召率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值