- 提出了一段式的目标检测结构;
- 提出了结合landmark的检测来提升检测精度;
- 主要针对通用目标检测网络在人脸检测时,对小目标和目标外形变化比较大时,表现比较弱的情况,densebox做了改进;
- densebox的基本流程是,首先对图像做金字塔操作,生成不同scale的图片,然后进入网络做下采样和上采样,最后输出featuremap(总的下采样为4),在featuremap做bbox回归和class confidence,最后做nms;
- 输出图片size是mn3,输出(m/4)*(n/4)*5,5个通道分别是= {ˆs, dx t = x i − x t , dy t = y i −y t , dx b = b t t b x i − x b , dy = y i − y b } ,分别代表的是feature这个位置的class confidence,bbox左上角点的delta_x,delta_y,右下角点的delta_x,delta_y;没有针对中点偏移的补偿量x_shift,y_shift,所以中心点应该是会有4个像素内的误差的。
- ground_truth生成:从原图中crop出face及周边背景的patch,然后resize这个patch到240240,在feature上是6060,然后将bbox的中心点为圆心生成一个半径为r=0.3的圆作为channel1的正样本(设定为1);
- Note that if multiple faces occur in one patch, we keep those faces as positive if they fall in a scale range(e.g. 0.8 to 1.25 in our setting) relative to the face in patch center. Other faces are treated as negative samples。???没看懂
- densebox可以看成是基于生成的featuremap的每个像素的感受野来判定正负样本的,如果这个像素的感受野里面有一个face的中心,那么就是正样本,否则就是负样本。
- 文中提到:In our implementation, we concatenate feature map from conv3 4 and conv4 4. The receptive field (or sliding window size) of conv3 4 is 48×48, almost the same size of the face size in training, and the conv4 4 have a much larger receptive field, around 118 × 118 in size, which could utilize global textures and context for detection. 作者详细计算过到每层的perception field,并且将与人脸大小的感受野的层与更大感受野的层进行了融合,可以得到更好的检测效果。
- 分类的loss和回归的loss都是L2的loss,作者也提到分类的loss使用cross entropy可能更好,但l2的loss已经足够好;
- 样本均衡,Balance Sampling,主要采用了两个方法:第一个方法是忽略正负样本过度区域,称为gray zone,是以正样本区域边缘的两个像素范围内的区间来定义的。第二个方法是Hard Negative Mining,首先将负样本像素中的loss按loss大小排序,选取前面的1%为hard-negative,然后保证每张图片中正负样本的数量是1:1,负样本的50%来源于hard-negative,另外的50%从non-hard negative中随机选取。这两种方法都是通过新增一个binary mask for each output pixel to indicate whether it is selected in training。
- 分类和回归loss的真值和预测值都是做了归一化的;The loss and output gradients must be scaled by the number of contributing pixels, so that both loss and output gradients are comparable in multi-task learning. loss都是除以参与运算的像素数量的,以求多任务的各个loss能够达到同样的数量级;
- Refine with Landmark Localization可以明显提升准召率。
《DenseBox: Unifying Landmark Localization with End to End Object Detection》阅读笔记
最新推荐文章于 2024-06-12 15:01:00 发布