Task2:建模方案解读与进阶
YOLO介绍
YOLO(You Only Look Once)是一种流行的目标检测算法,于2015年首次提出 。YOLO的核心思想是将目标检测任务转化为一个回归问题,通过单个卷积神经网络(CNN)直接从图像中预测边界框(bounding box)和类别概率 。YOLO算法以其速度快和性能好而著称,特别适合实时目标检测任务。
YOLO算法的网络结构受到了GoogLeNet的启发,包含24个卷积层和2个全连接层,其中使用了1×1的卷积层来代替GoogLeNet中的inception模块 。YOLO通过将输入图像分割成一个个格子(grid cell),每个格子负责预测中心点落在该格子内的目标。每个单元格会预测多个边界框以及边界框的置信度(confidence score),其中包括边界框含有目标的可能性和边界框的准确度 。
YOLO算法还包括一个损失函数,它考虑了边界框的坐标预测误差、置信度预测误差和分类预测误差。特别是,对于边界框的宽和高(w和h),YOLO采用了对它们求平方根的方式来进行回归,这样的设计使得对小目标的检测更为敏感 。
YOLO算法经过多次迭代,发展出了多个版本,包括YOLOv2、Y