CascadeClassifier检测的基本原理:
参考:https://blog.youkuaiyun.com/qq_37791134/article/details/80583726
级联分类器类的检测框架简而言之就是一个多尺度缩放+滑动窗口遍历搜索的框架。在CascadeClassifier中包含detectMultiScale和detectSingleScale成员函数,分别对应多尺度和单尺度检测,其中多尺度检测中会调用单尺度的方法。
分类器仅能够对某一固定size的采样图像做判断,给出当前的采样图像是否为真实目标的“非正即负”的结果(size是由训练数据决定的)。要找到某个图像中的目标位置,就要以size大小的采样窗口对图像逐行逐列地扫描,然后对每个采样图像判断是否为正,将结果以矩形位置保存下来就获得了目标的位置。也就是说,一个以40x40大小训练数据训练获得的分类器只能检测当前图像里40x40大小的目标。要检测80x80大小的目标该如何做呢?可以把原图像缩放到原来的1/2,这样原图中80x80大小的目标就变成40x40了,再做一次上面的扫描检测过程,并且将得到的矩形换算到原图中对应的位置,从而检测到了80x80大小的目标。实际上,我们每次对原图进行固定步长的缩放,形成一个图像金字塔,对图像金字塔的每一层都扫描检测,这就是多尺度检测的框架。
xml中存放的是训练后的特征池,特征size大小根据训练时的参数而定,检测的时候可以简单理解为就是将每个固定size特征(检测窗口)与输入图像的同样大小区域比较,如果匹配那么就记录这个矩形区域的位置,然后滑动窗口,检测图像的另一个区域,重复操作。由于输入的图像中特征大小不定,比如在输入图像中眼睛是50x50的区域,而训练时的是25x25,那么只有当输入图像缩小到一半的时候,才能匹配上,所以这里还有一个逐步缩小图像,也就是制作图像金字塔的流程。
参数解释
void detectMultiScale(
const Mat& image,
CV_OUT vector<Rect>& objects,
double scaleFactor = 1.1,
int minNeighbors = 3,
int flags = 0,
Size minSize = Size(),
Size maxSize = Size()
);
参数:
1. const Mat& image:输入图像
2. vector& objects:输出的矩形向量组
3. double scaleFactor=1.1:这个是每次缩小图像的比例,默认是1.1
4. minNeighbors=3:匹配成功所需要的周围矩形框的数目(由于调整滑动窗口的大小和很多误报),每一个特征匹配到的区域都是一个矩形框,只有多个矩形框同时存在的时候,才认为是匹配成功,比如人脸,这个默认值是3。参考:(https://stackoverflow.com/questions/22249579/opencv-detectmultiscale-minneighbors-parameter)
5. flags=0:可以取如下这些值:
CASCADE_DO_CANNY_PRUNING=1, 利用canny边缘检测来排除一些边缘很少或者很多的图像区域
CASCADE_SCALE_IMAGE=2, 正常比例检测
CASCADE_FIND_BIGGEST_OBJECT=4, 只检测最大的物体
CASCADE_DO_ROUGH_SEARCH=8 初略的检测
6. minObjectSize maxObjectSize:匹配物体的大小范围
示例:(VS2017)
// objectDetection_mark.cpp: 定义控制台应用程序的入口点。
//
#include "stdafx.h"
#include "opencv2/objdetect.hpp"
#include "opencv2/highgui.hpp"
#include "opencv2/imgproc.hpp"
#include <stdio.h>
using namespace std;
using namespace cv;
/** Function Headers */
void detectAndDisplay(Mat frame);
/** Global variables */
String cascade_name;
CascadeClassifier object_cascade;
String window_name = "Capture - object detection";
/** @function main */
int main(int argc, const char** argv)
{
CommandLineParser parser(argc, argv,
"{help h||}"
"{cascade|../../data/haarcascades/cascade.xml|}");
parser.about("\nThis program demonstrates using the cv::CascadeClassifier class to detect objects in a video stream.\n"
"You can use Haar or LBP features.\n\n");
parser.printMessage();
cascade_name = parser.get<String>("cascade");
VideoCapture capture;
Mat frame;
//-- 1. Load the cascades
if (!object_cascade.load(cascade_name)) { printf("--(!)Error loading cascade\n"); return -1; };
//-- 2. Read the video stream
capture.open("../data/Megamind.avi");
if (!capture.isOpened()) { printf("--(!)Error opening video capture\n"); return -1; }
while (capture.read(frame))
{
if (frame.empty())
{
printf(" --(!) No captured frame -- Break!");
break;
}
//-- 3. Apply the classifier to the frame
detectAndDisplay(frame);
if (waitKey(1) == 27) { break; } // escape
}
return 0;
}
/** @function detectAndDisplay */
void detectAndDisplay(Mat frame)
{
std::vector<Rect> faces;
Mat frame_gray;
cvtColor(frame, frame_gray, COLOR_BGR2GRAY);
equalizeHist(frame_gray, frame_gray);
//-- Detect faces
object_cascade.detectMultiScale(frame_gray, faces, 1.1, 10, 0 | CASCADE_SCALE_IMAGE, Size(60, 60));
for (size_t i = 0; i < faces.size(); i++)
{
//rectangle(frame_gray, faces[i], Scalar(0, 255, 0), 2, 8, 0);
Point center(faces[i].x + faces[i].width / 2, faces[i].y + faces[i].height / 2);
ellipse(frame, center, Size(faces[i].width / 2, faces[i].height / 2), 0, 0, 360, Scalar(255, 0, 255), 2, 8, 0);
}
//-- Show what you got
imshow(window_name, frame);
}