深度计算机视觉:从目标检测到语义分割
1. 边界框归一化与评估指标
在计算机视觉中,为了更好地处理和评估目标检测任务,边界框的归一化是一个重要的步骤。边界框的水平和垂直坐标、高度和宽度都应归一化到 0 到 1 的范围。同时,预测边界框高度和宽度的平方根比直接预测高度和宽度更为常见,这样可以避免对大边界框的误差惩罚过重。
在训练模型时,均方误差(MSE)常被用作成本函数,但它并不是评估模型预测边界框性能的最佳指标。最常用的指标是交并比(IoU),即预测边界框和目标边界框的重叠面积除以它们的并集面积。在 tf.keras 中,可以使用 tf.keras.metrics.MeanIoU 类来实现。
2. 多目标检测
当图像中包含多个目标时,就需要进行多目标检测。一种传统的方法是使用训练好的用于单目标分类和定位的卷积神经网络(CNN),并将其在图像上滑动。具体来说,将图像划分为不同大小的网格区域,让 CNN 在这些区域上进行扫描。然而,这种方法会多次检测到同一目标,产生许多不必要的边界框,因此需要进行后处理。
2.1 非极大值抑制
非极大值抑制(Non-Max Suppression)是一种常用的后处理方法,其步骤如下:
1. 为 CNN 添加一个额外的目标存在性输出,用于估计图像中是否存在目标的概率。该输出使用 sigmoid 激活函数,并使用二元交叉熵损失进行训练。然后,去除所有目标存在性得分低于某个阈值的边界框。
2. 找到目标存在性得分最高的边界框,并去除所有与它重叠度较高(例如 IoU 大于 60%)的其他边界框。
3.
超级会员免费看
订阅专栏 解锁全文
2237

被折叠的 条评论
为什么被折叠?



