1、视觉任务
分类任务,每张图片安排一个标签联系图片上的主要物体;定位任务,一个边界框预测对象返回一个类比,必须和GT 的IoU>0.5;检测任务 每个图像中可以有任意数量的对象,FP通过mAp惩罚。
3.3多尺度分类测试
每个location多个尺度通过一个全卷积网络,每个尺度输出一个C-dimensional向量。
输入图片6个尺度再加上水平翻转输入网络,unpool层增广,池化过程增加一个偏移量,1个维度上输出3种池化结果,两个维度就是(3*3),假设layer5为1*20,输出层就为1*2,增加偏移量之后,输出层为1*6,每个格子内为1000类别向量。
二维从a->e:20*20*num——>6*6*9*256-->2*2*9*C-->2*2*9*C,求最后的输出类别,池化之后输出是原来的9倍(i)取每个格子中1000向量的最大值(ii)从多个尺度和翻转得出的C-dim向量,求平均值,???输出尺度不一样(iii)根据平均向量取top1或top5。
每张图片输入6个尺寸还水平翻转,卷积核大小5*5,步长为3 (17-5+2P+1)/3=5

4定位
同时运行分类器和回归定位任务,只是最后一层计算不同,最终输出层4个边界框坐标。如上表第一个尺度输出3*3*4,在原图上画9个框,并标记1000向量最大类别的得分, 上表第二个尺度6*9*4,如下图为最后输出维度

4.3 合并框(类似于非极大值抑制)
本文探讨了视觉任务中的分类、定位及检测等核心概念。详细介绍了多尺度分类测试流程,包括输入图片的不同尺度处理方式、卷积网络结构设计及其输出类别判断方法。此外,文中还讨论了定位任务的具体实现细节。
1万+

被折叠的 条评论
为什么被折叠?



