前言:为什么需要选择性搜索?
在计算机视觉领域,目标检测(Object Detection)是一个核心任务,它不仅要识别图像中有什么物体(分类问题),还要找出这些物体的具体位置(定位问题)。
在深度学习时代之前,滑动窗口法(Sliding Window)是一种常用的目标检测方法。想象一下,为了找到图像中的目标,我们需要用一个“框”在图像上以不同的尺寸和长宽比从左到右、从上到下地滑动,并对每个框内的图像块进行分类判断。这种方法简单粗暴,但计算量极大,效率低下,因为它会产生成千上万个可能包含目标的子区域(Patches),需要对每一个都进行计算。

为了解决这个问题,研究人员提出了候选区域(Region Proposal)算法。这类算法旨在快速生成可能包含物体的、数量较少的候选区域,从而避免无谓的计算。选择性搜索(Selective Search) 就是其中一种流行且高效的方法,它被广泛应用于诸如 R-CNN、Fast R-CNN 等早期深度学习目标检测模型中。
一、选择性搜索的核心思想 🎯
选择性搜索的核心思想非常直观:图像中的物体通常不是由孤立的像素组成的,而是由一些颜色、纹理、大小等特征相似的连续区域构成。因此,与其盲目地滑动窗口,不如采用自底向上的方式,先将图像分割成许多小区域,然后根据相似度逐步合并这些区域,形成更大的、可能包含完整物体的区域。这些合并后的区域就是我们的候选区域。

选择性搜索通过合并相似区域来生成候选框,例如从细小区域逐步合并成可能包含物体的较大区域。
与滑动窗口法相比,选择性搜索的优势在于:
- 计算量更小:生成的候选区域数量通常只有几千个,远少于滑动窗口产生的数十万甚至数百万个子区域。
- 多尺度检测:通过合并过程,自然产生了各种尺度的候选框,适应不同大小的物体。
- 适应性更强:

最低0.47元/天 解锁文章
1751

被折叠的 条评论
为什么被折叠?



