46、深度计算机视觉：从目标检测到语义分割

脑补型产品

于 2025-10-19 09:19:53 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习实战精华解读文章标签：目标检测语义分割边界框归一化

本文链接：https://blog.youkuaiyun.com/mongodb5scout/article/details/154944090

机器学习实战精华解读专栏收录该内容

75 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度计算机视觉：从目标检测到语义分割

1. 边界框归一化与评估指标

在计算机视觉中，为了更好地处理和评估目标检测任务，边界框的归一化是一个重要的步骤。边界框的水平和垂直坐标、高度和宽度都应归一化到 0 到 1 的范围。同时，预测边界框高度和宽度的平方根比直接预测高度和宽度更为常见，这样可以避免对大边界框的误差惩罚过重。

在训练模型时，均方误差（MSE）常被用作成本函数，但它并不是评估模型预测边界框性能的最佳指标。最常用的指标是交并比（IoU），即预测边界框和目标边界框的重叠面积除以它们的并集面积。在 tf.keras 中，可以使用 tf.keras.metrics.MeanIoU 类来实现。

2. 多目标检测

当图像中包含多个目标时，就需要进行多目标检测。一种传统的方法是使用训练好的用于单目标分类和定位的卷积神经网络（CNN），并将其在图像上滑动。具体来说，将图像划分为不同大小的网格区域，让 CNN 在这些区域上进行扫描。然而，这种方法会多次检测到同一目标，产生许多不必要的边界框，因此需要进行后处理。

2.1 非极大值抑制

非极大值抑制（Non-Max Suppression）是一种常用的后处理方法，其步骤如下：
1. 为 CNN 添加一个额外的目标存在性输出，用于估计图像中是否存在目标的概率。该输出使用 sigmoid 激活函数，并使用二元交叉熵损失进行训练。然后，去除所有目标存在性得分低于某个阈值的边界框。
2. 找到目标存在性得分最高的边界框，并去除所有与它重叠度较高（例如 IoU 大于 60%）的其他边界框。
3.