CascadeClassifier级联分类器的使用

最新推荐文章于 2025-04-06 19:06:44 发布

跟我执剑天涯

最新推荐文章于 2025-04-06 19:06:44 发布

阅读量7.3k

点赞数 5

分类专栏： opencv 文章标签：级联分类器 CascadeClassifier

本文链接：https://blog.youkuaiyun.com/WangHuiShou/article/details/81201698

版权

opencv 专栏收录该内容

3 篇文章

订阅专栏

本文介绍CascadeClassifier检测原理，包括多尺度缩放与滑动窗口遍历搜索框架。详细解析了detectMultiScale函数参数及其作用，并通过示例展示了如何使用CascadeClassifier进行目标检测。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

CascadeClassifier检测的基本原理：

参考：https://blog.youkuaiyun.com/qq_37791134/article/details/80583726

级联分类器类的检测框架简而言之就是一个多尺度缩放+滑动窗口遍历搜索的框架。在CascadeClassifier中包含detectMultiScale和detectSingleScale成员函数，分别对应多尺度和单尺度检测，其中多尺度检测中会调用单尺度的方法。

分类器仅能够对某一固定size的采样图像做判断，给出当前的采样图像是否为真实目标的“非正即负”的结果（size是由训练数据决定的）。要找到某个图像中的目标位置，就要以size大小的采样窗口对图像逐行逐列地扫描，然后对每个采样图像判断是否为正，将结果以矩形位置保存下来就获得了目标的位置。也就是说，一个以40x40大小训练数据训练获得的分类器只能检测当前图像里40x40大小的目标。要检测80x80大小的目标该如何做呢？可以把原图像缩放到原来的1/2，这样原图中80x80大小的目标就变成40x40了，再做一次上面的扫描检测过程，并且将得到的矩形换算到原图中对应的位置，从而检测到了80x80大小的目标。实际上，我们每次对原图进行固定步长的缩放，形成一个图像金字塔，对图像金字塔的每一层都扫描检测，这就是多尺度检测的框架。

xml中存放的是训练后的特征池，特征size大小根据训练时的参数而定，检测的时候可以简单理解为就是将每个固定size特征（检测窗口）与输入图像的同样大小区域比较，如果匹配那么就记录这个矩形区域的位置，然后滑动窗口，检测图像的另一个区域，重复操作。由于输入的图像中特征大小不定，比如在输入图像中眼睛是50x50的区域，而训练时的是25x25，那么只有当输入图像缩小到一半的时候，才能匹配上，所以这里还有一个逐步缩小图像，也就是制作图像金字塔的流程。

参数解释

void detectMultiScale(
	const Mat& image,
	CV_OUT vector<Rect>& objects,
	double scaleFactor = 1.1,
	int minNeighbors = 3, 
	int flags = 0,
	Size minSize = Size(),
	Size maxSize = Size()
);

参数：

1. const Mat& image：输入图像
2. vector& objects：输出的矩形向量组
3. double scaleFactor=1.1：这个是每次缩小图像的比例，默认是1.1
4. minNeighbors=3：匹配成功所需要的周围矩形框的数目（由于调整滑动窗口的大小和很多误报），每一个特征匹配到的区域都是一个矩形框，只有多个矩形框同时存在的时候，才认为是匹配成功，比如人脸，这个默认值是3。参考：（https://stackoverflow.com/questions/22249579/opencv-detectmultiscale-minneighbors-parameter）
5. flags=0：可以取如下这些值：
CASCADE_DO_CANNY_PRUNING=1, 利用canny边缘检测来排除一些边缘很少或者很多的图像区域
CASCADE_SCALE_IMAGE=2, 正常比例检测
CASCADE_FIND_BIGGEST_OBJECT=4, 只检测最大的物体
CASCADE_DO_ROUGH_SEARCH=8 初略的检测
6. minObjectSize maxObjectSize：匹配物体的大小范围

示例：（VS2017）

// objectDetection_mark.cpp: 定义控制台应用程序的入口点。
//

#include "stdafx.h"
#include "opencv2/objdetect.hpp"
#include "opencv2/highgui.hpp"
#include "opencv2/imgproc.hpp"

#include <stdio.h>

using namespace std;
using namespace cv;

/** Function Headers */
void detectAndDisplay(Mat frame);

/** Global variables */
String cascade_name;
CascadeClassifier object_cascade;
String window_name = "Capture - object detection";

/** @function main */
int main(int argc, const char** argv)
{
	CommandLineParser parser(argc, argv,
		"{help h||}"
		"{cascade|../../data/haarcascades/cascade.xml|}");

	parser.about("\nThis program demonstrates using the cv::CascadeClassifier class to detect objects in a video stream.\n"
		"You can use Haar or LBP features.\n\n");
	parser.printMessage();

	cascade_name = parser.get<String>("cascade");
	VideoCapture capture;
	Mat frame;

	//-- 1. Load the cascades
	if (!object_cascade.load(cascade_name)) { printf("--(!)Error loading cascade\n"); return -1; };

	//-- 2. Read the video stream
	capture.open("../data/Megamind.avi");
	if (!capture.isOpened()) { printf("--(!)Error opening video capture\n"); return -1; }

	while (capture.read(frame))
	{
		if (frame.empty())
		{
			printf(" --(!) No captured frame -- Break!");
			break;
		}

		//-- 3. Apply the classifier to the frame
		detectAndDisplay(frame);

		if (waitKey(1) == 27) { break; } // escape
	}
	return 0;
}

/** @function detectAndDisplay */
void detectAndDisplay(Mat frame)
{
	std::vector<Rect> faces;
	Mat frame_gray;

	cvtColor(frame, frame_gray, COLOR_BGR2GRAY);
	equalizeHist(frame_gray, frame_gray);

	//-- Detect faces
	object_cascade.detectMultiScale(frame_gray, faces, 1.1, 10, 0 | CASCADE_SCALE_IMAGE, Size(60, 60));

	for (size_t i = 0; i < faces.size(); i++)
	{
		//rectangle(frame_gray, faces[i], Scalar(0, 255, 0), 2, 8, 0);

		Point center(faces[i].x + faces[i].width / 2, faces[i].y + faces[i].height / 2);
		ellipse(frame, center, Size(faces[i].width / 2, faces[i].height / 2), 0, 0, 360, Scalar(255, 0, 255), 2, 8, 0);
	}
	//-- Show what you got
	imshow(window_name, frame);
}