文件内容课堂总结-优快云博客

本文链接：https://blog.youkuaiyun.com/2301_79975534/article/details/146207912

YOLO（You Only Look Once）是一种经典的one-stage目标检测方法，通过将检测问题转化为回归问题，仅用一个CNN网络即可完成检测，可应用于视频实时检测，领域广泛。

YOLO-V1
核心思想
将检测问题转化为回归问题，用CNN解决。
网络架构
输出为(S*S)*(B*5 + C)，其中C为类别数（当前数据集中有20个类别），B为每个网格预测的边界框数（2个），S为网格大小（7*7）。
优缺点
优点：快速、简单。

YOLO-V2
Batch Normalization
舍弃Dropout，卷积后全部加入Batch Normalization，网络每一层输入归一化，收敛更容易，提升约2%mAP，已成为网络必备处理。
更大分辨率
V1训练用224224，测试用448448可能导致水土不服，V2训练时额外进行10次448*448微调，mAP提升约4%。
网络结构
DarkNet架构，实际输入416416，无FC层，5次降采样得到1313特征图，采用1*1卷积节省参数
聚类提取先验框
通过K-means聚类选择先验框比例，距离计算方式特殊，适应数据集。
Anchor Box
引入后预测box数量增多（1313n），先验框不是按固定长宽比给定，与faster-rcnn系列不同。
Directed Location Prediction
不直接使用偏移量，而是相对grid cell的偏移量，避免收敛问题和模型不稳定。
堆叠小卷积核可达到与大卷积核相同的感受野，且参数更少，特征提取更细致，加入非线性变换多，是VGG网络出发点。
Fine-Grained Features
最后一层感受野太大易丢失小目标，融合之前特征解决。
Multi-Scale
支持输入图片大小动态调整，范围为320x320至608x608。
YOLO系列特点
速度快、精度较高、可扩展性强，通过不断改进解决了YOLO-V1的一些问题，在目标检测领域有广泛应用。