YOLO-V1
核心特点:one-stage方法,将检测问题转化为回归问题,能实时检测视频。
核心思想:把输入图像划分为S×S网格,预测边界框、置信度和类别概率。
网络架构:基于GoogLeNet修改,含20层,最终输出7×7×30张量。
性能与局限:速度快但存在每个Cell只预测一个类别、小物体检测效果差等问题。
核心思想
首先将输入图像划分为S×S的网格 ,若物体的中心落在某个网格中,该网格就负责检测这个物体。
2. 每个网格会预测多个边界框及其置信度 ,置信度表示该框内存在物体的可能性以及框的准确性。
3. 同时,每个网格还会预测一个类别概率图,表示该网格所检测到的物体属于不同类别的概率。
4. 最后,根据边界框、置信度和类别概率,筛选出最终的检测结果,也就是用不同颜色框标记出图像中的各个物体。
网络架构
输入部分 中间处理 输出部分 张量解释
NMS的作用是在目标检测中,当一个目标被多个边界框检测到时,保留置信度最高的边界框,抑制其他重叠的边界框。
YOLOV2
计算公式
感受野
改进策略:舍弃Dropout,全卷积层添加Batch Normalization,使网络输入归一化,mAP提升2%。训练时增加448×448分辨率微调,使用高分辨率分类器,mAP提升约4%。
◦ 创新机制:Directed Location Prediction改进定位计算,避免直接用偏移量导致的收敛问题;融合之前特征捕捉小目标;多尺度训练,改变输入图像大小(320×320 - 608×608)增强模型适应性。