【CS231n笔记】08 Spatial Localization and Detection

1.分类+定位
2.物体检测

计算机视觉任务一般可分为下列四类:
— 分类
— 分类+定位
— 检测
— 实例分割
这里写图片描述

1.分类+定位
分类:C个类别
输入:图像
输出:类别标签
评价指标:准确率
这里写图片描述
定位:
输入:图像
输出:边框(x,y,w,h)
评价指标:IoU(Intersection over Union)
这里写图片描述
分类+定位即同时完成上述两个任务

ImageNet数据集的分类+定位(CLS-LOC)任务:
共1000类(同分类任务一样)
每张图像中有一类物体,并且最少有一个位置边框
每类约有800训练图像
算法每次生成5个预测,包括类别标签及位置边框,即top-5预测
预测正确的条件是,在5个预测中分类正确且位置边框>=0.5 IoU
这里写图片描述

思路#1:将定位视为回归问题
图像经过神经网络后输出位置边框坐标,将其与正确坐标的L2距离作为损失函数。
这里写图片描述
基本流程如下:
Step1:训练一个分类模型(如AlexNet, VGGNet, GoogLeNet等)
这里写图片描述
Step2:附加一个新的全连接层“regression head”到网络上
这里写图片描述
Step3:利用SGD和L2损失单独训练“regression head”
这里写图片描述
Step4:在测试时同时使用两个全连接层完成两个任务
这里写图片描述

分类后定位 vs. 未分类定位
这里写图片描述

在何处附加“regression head”?
这里写图片描述

另:定位多个目标,即在每张图像

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值