YOLO(You Only Look Once)是一种经典的one-stage目标检测方法,通过将检测问题转化为回归问题,仅用一个CNN网络即可完成检测,可应用于视频实时检测,领域广泛。
YOLO-V1
核心思想
将检测问题转化为回归问题,用CNN解决。
网络架构
输出为(S*S)*(B*5 + C),其中C为类别数(当前数据集中有20个类别),B为每个网格预测的边界框数(2个),S为网格大小(7*7)。
优缺点
优点:快速、简单。
YOLO-V2
Batch Normalization
舍弃Dropout,卷积后全部加入Batch Normalization,网络每一层输入归一化,收敛更容易,提升约2%mAP,已成为网络必备处理。
更大分辨率
V1训练用224224,测试用448448可能导致水土不服,V2训练时额外进行10次448*448微调,mAP提升约4%。
网络结构
DarkNet架构,实际输入416416,无FC层,5次降采样得到1313特征图,采用1*1卷积节省参数
聚类提取先验框
通过K-means聚类选择先验框比例,距离计算方式特殊,适应数据集。
Anchor Box
引入后预测box数量增多(1313n),先验框不是按固定长宽比给定,与faster-rcnn系列不同。
Directed Location Prediction
不直接使用偏移量,而是相对grid cell的偏移量,避免收敛问题和模型不稳定。
堆叠小卷积核可达到与大卷积核相同的感受野,且参数更少,特征提取更细致,加入非线性变换多,是VGG网络出发点。
Fine-Grained Features
最后一层感受野太大易丢失小目标,融合之前特征解决。
Multi-Scale
支持输入图片大小动态调整,范围为320x320至608x608。
YOLO系列特点
速度快、精度较高、可扩展性强,通过不断改进解决了YOLO-V1的一些问题,在目标检测领域有广泛应用。