视频人脸识别的深度学习方法解析
1. 传统方法
视频或图像集的人脸识别在过去得到了积极的研究。这里主要关注无序的人脸图像集输入,不考虑利用时间动态的现有方法。
1.1 基于子空间或流形的方法
许多先前的方法试图用外观子空间或流形来表示人脸图像集,并通过计算流形相似度或距离来进行识别。这些传统方法在受限环境下可能效果良好,但通常无法处理存在较大外观变化的具有挑战性的无约束场景。
1.2 基于局部特征的方法
一些方法尝试基于局部特征构建视频级特征表示。例如:
- PEP方法 :采用基于部分的表示,通过提取和聚类局部特征,同时考虑局部特征中的外观和空间信息。
- Video Fisher Vector Faces (VF2) 描述符 :使用Fisher向量编码将不同视频帧的局部特征聚合在一起,形成视频级表示。
尽管这些方法在无约束场景中取得了很大的改进,但它们使用的特征仍然是手工制作的,性能远远落后于基于深度学习的方法。
2. 现有的基于深度学习的方法
近年来,最先进的人脸识别方法主要由深度卷积神经网络(CNN)主导。
2.1 特征提取与距离度量
设 $x$ 为输入人脸图像,CNN 可以通过交错的线性和非线性变换将其映射到低维特征空间,这一过程可表示为 $f = CNN(x)$。
给定两个人脸图像 $x$ 和 $x’$,它们的身份相似度可以通过特征角距离 $d(f, f’) = \arccos(\frac{< f
超级会员免费看
订阅专栏 解锁全文
974

被折叠的 条评论
为什么被折叠?



