MTCNN 的 TensorFlow 实现

最新推荐文章于 2024-08-22 10:00:31 发布

原创

最新推荐文章于 2024-08-22 10:00:31 发布 · 1.7w 阅读

83 ·

CC 4.0 BY-SA版权

文章标签：

#mtcnn #tensorflow #AI

本文详细介绍了如何使用 TensorFlow 实现 MTCNN 人脸识别系统，包括数据集、模型构建、数据处理流程以及如何在 TensorFlow Serving 上部署。重点讲解了 PNet、RNet 和 ONet 的构建，并给出了代码实现和关键步骤的解释。

代码及原文贴在我的 github 上：
https://github.com/FortiLeiZhang/model_zoo/tree/master/TensorFlow/mtcnn

MTCNN 的 TensorFlow 实现

Magic Vision 要加人脸识别功能，所以要在 TensorFlow Serving 上起一个人脸识别服务，自然想到的是 Google 的 Facenet。由于 Google 官方提供下载的 Facenet 模型中有个 bug 导致其 serving 不起来，所以要在他们的源代码上进行修改重新训练。于是乎我想干脆把他们的代码自己重新写一遍算了。至于如何从头开始训练 Facenet，参见这篇文章。

Facenet 的实现过程包括两步，首先是用 MTCNN 将图片中的人脸框出来，第二步是识别框出来的人脸是谁。这里先完成第一步，即 MTCNN 的 TensorFlow 实现，并将得到的 model 在 TensorFlow Serving 上跑起来。

MTCNN 原始论文中的代码是用 MATLAB 实现的。Facenet 只是将 MATLAB 代码翻译成了 TensorFlow , 并使用已经训练好的模型参数。这里不得不吐槽一下原始论文中的 MATLAB 代码，到处都是多余的 T 啊，有事没事的就来个转置，这肯定是平时写论文推公式养成的习惯，见到个矩阵后面就加个 T，本来好好的 (x, y) 坐标，非得要加个 T 变成 (y, x)，完事再 T 回来。Google 也耿直，翻译代码的时候也是见到 T 就 np.transpose。我试着将多余的转置去掉，发现不行，结果不对，可能现成的参数就是这么训练出来的，如果去掉转置的话，参数可能对不上。长话短说，还是先看代码吧。

1. Dataset : CASIA-maxpy-clean

Facenet 用的是 CASIA-webface dataset 进行训练。这个 dataset 在原始地址已经下载不到了，而且这个 dataset 据说有很多无效的图片，所以我用的是清理过的数据库。该数据库在百度网盘有下载：下载地址，提取密码为 3zbb。

这个数据库有 10575 个类别，每个类别都有各自的文件夹，里面有同一个人的几张或者几十张不等的脸部图片。MTCNN 的工作就是从这些照片中把人物的脸框出来，然后交给下面的 Facenet 去处理。这里建立一个 ImageClass，存储各个类别的编号名称和该类别下所有图片的绝对路径。

2. 建立 MTCNN 模型

首先要在 main 函数中起一个 Graph，模型的图就建在这个 Graph 中，然后在此 Graph 中起一个 session 来运行函数执行命令建立三个 CNN：Proposal Network (P-Net), Refine Network (R-Net) 和 Output Network (O-Net)。

with tf.Graph().as_default():
    gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=args.gpu_memory_fraction)
    sess = tf.Session(config=tf.ConfigProto(gpu_options=gpu_options, log_device_placement=False))
    with sess.as_default():
        pnet, rnet, onet = detect_face.create_mtcnn(sess, None)

Google Facenet 的原作者在建立网络时，自己重写了 CNN 网络所需要的各个组件，包括 Conv 层，MaxPool 层，Softmax 层等等。这里我偷点懒，用现成的 Keras 来实现各个组件。这里先只关注网络是如何搭建的，至于网络的输入输出以及是如何运作的，在下一节细说。

PNet

首先建立一个 variable_scope，在此 scope 中的所有 variable 和 op 的名称都会加前缀 pnet/ 。

输入是一个形如 (None, None, None, 3) 的 placeholder。

然后就是根据文章中的参数建立模型就好了。这里需要注意的地方有两处：

PReLU 层

MTCNN 使用 Parametric ReLU (PReLU) 来引入 nonlinearity，PReLU 的定义如下：

f (x) = {x α \cdot x if x >

最低0.47元/天解锁文章

12 条评论

「已注销」 2022.09.14
讲的很清楚了，感谢

已至的周 2020.11.17
检测的好慢，200*240 的也要0.7秒，有没有什么加速检测的方法？

颐水风华 2020.06.05
你代码有个小问题[code=python] self.conv1 = tf.keras.layers.Conv2D(filters=10, kernel_size=(3, 3), strides=(1, 1), padding='valid',,name='conv1') [/code]需要加入use_bias=None参数
- 颐水风华回复王同学-学习笔记 2020.12.11
  现在不好用这个里太慢跑起来很简单
- 王同学-学习笔记回复颐水风华 2020.12.11
  大佬，你们怎么把程序跑起来的，能不能指导一下

老三是只猫 2020.03.28
rror: The initializer passed is not valid. It should be a callable with no arguments and the shape should not be provided or an instance of `tf.keras.initializers.*' and `shape` should be fully defined. 报错，该如何解决？
- 颐水风华回复老三是只猫 2020.06.28
  [reply]zhonglongshen[/reply]我遇到相同的的问题了

天然玩家 2019.06.11
https://github.com/LeslieZhoa/tensorflow-MTCNN

sinat_39057475 2018.08.21
请问MTCNN中图片为什么要生成一组内容相同，大小不同的image pyramid
- 王同学-学习笔记回复FortiLZ 2020.12.11
  你们，代码怎么跑起来啊，新手求带
- 菜皮aaaaaaaaaaao回复sinat_39057475 2019.03.24
  [reply]sinat_39057475[/reply] 图像金字塔用于解决目标检测中的尺度问题， P-Net扫描窗口大小固定(12*12)，或者如作者所说 P-Net相当于在图像上以12*12block处理图像(stride=2)得到特征值，每个特征值对应原图12*12block属于人脸的概率。在这种情况下，P-Net就只能检测输入图像一个12*12的区域，为了让各个尺寸的人脸都能缩小到12*12被检测到，就需要按不同比例缩小啦！通过依次将原图按比例缩放（图像金字塔）以达到在不同尺度上检测人脸。因此，为了保证每张图的最小检测脸20可以被检测，12/20就必须是最大的缩小因子，其余缩小因子都在12/20的基础上*factor的n次方，最小的缩小因子则要保证原图*scale>12
- FortiLZ回复sinat_39057475 2018.08.23
  [reply]sinat_39057475[/reply] 这样就可以产生不同 scale 的图片，从而帮助实现对于图片的 translation invariant。