1.SNIP
1. 训练测试分辨率的domain shift
这里的domain shift指的是测试和训练的图像分辨率不一致。
实验目的
探究该domain shift(测试和训练的图像分辨率不一致)的影响,并比较两种解决方案。
实验:·
网络名称 | 训练 | 测试 |
---|---|---|
CNN-B | 224*224 | 先下采样到48* 48,64* 64, 80* 80, 96* 96, 128*128。之后上采样 |
CNN-S | 48*48 | 48*48 |
CNN-B-FT | 以CNN-B为基础。下采样至48*48,再上采样 | 同训练集 |
网络的训练和测试结果如图所示:
实验结果如图所示:
解释:
- 实验a:当训练时所用图像分辨率和测试时所用分辨率差别越大时,即domain shift越严重的时候,性能差距越大。
- 实验b、c:当测试与训练分辨率一致的时候,采用CNN-B-FT的方法会获得更好的效果。也就是说,在图像分辨率相同的情况下。放大图片以CNN-B为基础进行fintune进行训练可以获得更好的效果。可能有两个原因导致这个结果:1. 放大的过程使用了插值,这在某种程度上增加了一些细节。2.fintune前的网络CNN-B提供了一个很好的初值,并且提供了一些关于高分辨率图像分类的信息,使得CNN-B-FT表象更好。
结论
测试与训练使用的分辨率要匹配。
2. image resolution对于小物体检测性能的影响、只检测小物体对于整体ap的影响、简单多尺度对于ap的影响。
目的:探究几种MST的效果吧?主要是为了展示检测器的两个需求:
- 获得更多物体信息(variation)
- 尺度变化要在网络的可接受范围内。
实验以及结果:
名称 | 训练 | 测试 | 结果 |
---|---|---|---|
1400all1400_{all}1400all | 1400*2000,所有物体 | 1400* 2000,小物体 | 19.9 |
800all800_{all}800all | 800*1400,所有物体 | 同上 | 19.6 |
1400<80px1400_{<80_{px}}1400<80px | 1400*2000,忽略>80像素的物体 | 同上 | 16.4 |
MST(Multi-Scale) | 训练时随机缩放图像尺寸 | 同上 | 19.5 |
解释:
1.
trainingat higher resolutions scales up small objects for better classification, but blows up the medium-to-large objects which degrades performance
对比1400all1400_{all}1400all和800all800_{all}800all,大尺度的提升不明显,可能是因为大尺度图像虽然包含更多小物体的信息,但是大物体也更大了,并且进行了BP。扰乱了网络对于小物体特征的学习。
2.
lost a significant source of variation in appearance and pose by ignoring medium-to-large objects (about 30% of the total object instances) that hurt performance more than it helped by eliminating extreme scale objects.
对比800all800_{all}800all和1400<80px1400_{<80_{px}}1400<80px,1400<80px1400_{<80_{px}}1400<80px的效果更差,这可能是因为减少了大量物体的信息(包括中型物体的信息和一些在小、中之间的物体),降低了perfermance。
- 这个实验其实不太完善,只进行了<80px<80_{px}<80px的实验,可以做一个把中型物体包括进来的实验,这样子也避免了1中可能出现的扰乱现象,也保留了更多的物体信息。
it is important to train a detector with appropriately scaled objects while capturing as much variation across the objects as possible.
对比MST和其他,MST的效果并不明显。这可能是因为虽然能够增加更多的可利用的物体信息(可利用指的是能够对网络识别物体更加有效),但是也增加了很多无效信息,如过小的bbox和过大的bbox。MST更强的改进了2中的问题,但是也加重了1中出现的问题。
结论
总体来说,就是要同时做到两点才可以:
- 获得更多物体信息(variation)
- 尺度变化要在网络的可接受范围内。
3. Anchor和GT的匹配
*该实验在SNIP实验部分出现。
当使用标准配置(15种anchor,5 scales ,3 aspect ratios,IOU 0.7)时,只有30%的GT被匹配(匹配后的Anchor与其IOU超过0.7)。而IOU设置为0.5时,58%被匹配的GT满足此IOU。