【人脸检测】MTCNN网络解析

最新推荐文章于 2025-03-14 16:18:22 发布

原创

最新推荐文章于 2025-03-14 16:18:22 发布 · 4k 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #计算机视觉 #神经网络

本文详细介绍了MTCNN网络，包括其结构、原理及实施流程。MTCNN由P-Net、R-Net和O-Net组成，实现了人脸检测、候选框筛选和特征点定位。通过图像金字塔技术进行多尺度检测，确保捕捉不同大小人脸。

1.什么是MTCNN网络？

MTCNN（多任务卷积神经网络）将人脸区域检测与人脸关键点检测放在了一起，总体可分为P-Net、R-Net、和O-Net三层网络结构。

MTCNN是由中国科学院深圳研究院在2016年提出的专门用于人脸检测的多任务神经网络模型。该模型主要由3个级联网络组成，分别为可以快速生成候选框的P-Net网络、进行候选框过滤的R-Net网络和生成最终边界框并且标出人脸特征点的O-Net网络。该模型主要运用了图像金字塔、非极大抑制（NMS）和边框回归技术(Bounding-Box Regression）。

MTCNN实现人脸检测与对齐在一个网络里实现了人脸检测与五点标定的模型，主要是通过CNN模型级联实现了多任务学习网络。整个模型分为三个阶段，第一阶段通过一个浅层的CNN网络快速产生一系列的候选窗口（P-Net网络）；第二阶段通过一个能力更强的CNN网络过滤掉绝大部分非人脸候选窗口（R-Net网络）；第三阶段通过一个能力更加强的网络找到人脸上面的五个标记点（O-Net网络）。

2.内部实现原理？

首先输入原始图片集，图片在进入3个级联网络前会通过图像金字塔技术对图片进行尺寸重新划分，将原图缩放为不同的尺度，从而构成图像金字塔；然后将这些不同尺寸的图片送入3个级联网络进行训练，这是为了让网络可以检测到不同大小的人脸而进行的多尺度检测。

在完成图像金字塔后，生成的图像会进入MTCNN的第一个网络层，即P-Net网络层。P-Net全称为Proposal Network，该网络也是一个全连接网络，对于上一步输入的图像，通过全卷积网络（FCN）初步提取图像特征并且给出初步的标定边框，这时会出现许多标定边框，因为P-Net会通过一个人脸分类器将可能为人脸的部分都打上边框。在该网络的最后会通过Bounding-Box Regression与NMS对刚才生成的边框进行初步筛查，丢弃不符合标准的标定边框。P-Net网络结构如图所示。