1.将一幅图像分成S×S个网格,如果某个目标的中心店落在一个网格中,那么这个网格负责预测这个目标
2.每个网格负责预设定的n个目标,返回位置(xywh)和置信度及C个类别的分数(numclass+BG)
3.损失函数:坐标预测 为了区分不同大小的目标的偏移量,加上根号限制。

inputsize 448,448,3 -> 图片分为7X7个网格,每个网格负责预测2个boudingbox(xywh,confidence)和n+1个类别 -> 5+5+10 = 30
本文介绍了一种图像处理方法,通过将448x448的图片划分为7x7网格,每个网格负责预测两个边界框(xywh)、信心度以及n+1个类别,特别强调了坐标预测中对目标尺寸差异的处理。损失函数考虑了目标大小的调整。
1.将一幅图像分成S×S个网格,如果某个目标的中心店落在一个网格中,那么这个网格负责预测这个目标
2.每个网格负责预设定的n个目标,返回位置(xywh)和置信度及C个类别的分数(numclass+BG)
3.损失函数:坐标预测 为了区分不同大小的目标的偏移量,加上根号限制。

inputsize 448,448,3 -> 图片分为7X7个网格,每个网格负责预测2个boudingbox(xywh,confidence)和n+1个类别 -> 5+5+10 = 30

被折叠的 条评论
为什么被折叠?