李飞飞计算机视觉-自用笔记(六)
11 图像分割、定位、检测
11.1 语义分割
方法1:滑动窗口
问题:效率低下
方法2:全连接卷积网络
问题:计算量太大,耗费内存
方法3:卷积与下采样结合
上采样:按某规则扩充像素
转置卷积:不再是对应元素与卷积核做内积,而是用输入做权重处理卷积核,使输出是带有权重的卷积核的叠加
例:
11.2 图像分类+定位
通常有两个全连接层,其中一个输出类别及得分,另一个输出坐标及图像的长、宽
分别对应两个损失函数,如Softmax和L2 Loss
11.3 对象识别
对与固定几个类别,根据输入的图片,每当出现目标对象时,框处目标对象并对其进行预测
方法:滑动窗口;选中某些区域后对其进行预测,如果当前的类别中没有此区域所对应的内容,新增一个“背景”类,并将当前区域加入其中
问题1:如何选择区域
方法:使用候选区域,建立点状的候选区域,建立候选清单,如目标检测会给出2000个候选区域
问题2:候选区域尺寸不同
方法:由于候选区域要作为同一个卷积神经网络的输出ÿ