【Datawhale AI夏令营 CV】 Task 2-优快云博客

Baseline 模型学习

物体检测算法

物体检测是计算机视觉中的一个核心任务，其目的是识别和定位图像或视频帧中的物体。这项技术被广泛应用于诸多领域，包括但不限于自动驾驶、安防监控、医学影像分析、无人机技术以及增强现实/虚拟现实（AR/VR）。下面是对物体检测流程的一些关键概念和步骤的详细说明：

输入
- 图像或视频帧：物体检测算法通常从一张静态图像或视频帧开始。输入图像可以是任何尺寸，但通常会经过预处理（如缩放）以便适配模型的输入要求。
特征提取
- 卷积神经网络 (CNN)：CNN 是一种广泛使用的深度学习模型，用于提取图像中的层次特征。早期的层通常捕捉边缘、纹理等低级特征，而较深的层则学习更抽象、复杂的模式。
- 特征金字塔 (Feature Pyramid)：为了检测不同大小的物体，一些先进的算法（如 Feature Pyramid Networks, FPN）利用多尺度特征图来增强模型在不同物体大小上的表现。（特征金字塔）
候选区域生成
- 选择性搜索 (Selective Search)：这是一种传统的候选区域生成方法，它根据颜色、纹理、形状等属性对图像进行分割，然后合并相似区域以形成候选框。
- 区域提议网络 (Region Proposal Network, RPN)：在 Faster R-CNN 中，RPN 使用 CNN 提取的特征图生成候选区域，这种方式大大提高了检测速度。
区域分类与边界框回归
- 分类任务：对于每个候选区域，模型需要判断其中是否包含特定类别的物体。这通常通过一个分类器（如 softmax 分类器）来完成。
- 回归任务：如果候选区域确实包含物体，则需要调整候选框的位置和大小以更准确地包围物体。这一过程称为边界框回归。
- 多任务损失函数：训练过程中，模型需要同时最小化分类误差和边界框回归误差，以达到最佳的检测效果。
非极大值抑制 (Non-Maximum Suppression, NMS)
- NMS：在检测阶段，可能有多个候选框覆盖同一物体，NMS 用于选择具有最高置信度得分的框，并删除那些与之高度重叠的框。