【论文学习笔记】Face Recognition with Learning-based Descriptor

本文提出一种基于LE描述子的人脸识别方法,利用无监督学习技术从训练样本中学习编码本,通过PCA降维得到紧凑描述子。此外,文中还介绍了一种姿态自适应的匹配方法,该方法能有效应对不同姿态下的识别问题。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基于LE描述子的人脸识别

摘要:提出一个新的方法,解决人脸识别中的人脸描述和人脸匹配(验证)问题。
          首先,通过一个新的learning-based(LE)编码方法对面部的“微结构(micro-structures)”进行编码,通过无监督学习的技术从训练样本中学习到一个“编码本(encoder)“,这个编码本可以实现较好的识别能力和不变性。
          然后,使用PCA将面部编码降维得到一个更加紧凑的描述子,经过主成分分析之后进行归一化机制可以提高描述子的识别能力。
          本文中的人脸描述——基于学习的描述子,是一个简洁紧凑,易于提取且高识别能力的特征描述方式。

          为了解决现实世界中的多姿态问题,本文提出了一个具备姿态适应性的匹配方法,该方法使用特定姿态分类器处理不同姿态下的比较。
          本文方法在LFW人脸库上达到了84.45%的识别率。在其他各个不同的人脸数据集上也取得了优异的表现。

人脸识别两大任务:人脸认证——他是谁?  人脸验证——他们是一个人?

人脸验证是人脸认证的基础,应用更加广泛,本文重点阐述。
人脸验证是一个”二元分类问题“,人脸验证的主要方法是人脸描述和人脸匹配。

人脸描述子(即提取到的特征)应当具备较高的区分度并且对于人脸的明显变化噪声等具有不变性。

人脸匹配对于姿态表情遮挡的变化应当具备鲁棒性。


人脸描述如LBP,SIFT,HOG等编码方式有两方面的缺点:
1,很难得到一个最优的编码方法。通常使用更多的上下文像素信息(高维特征向量,)可以得到区分度更大的编码。手工设计一个编码方法并且得到一个在高维空间里,兼顾编码区分度和鲁棒性的编码本大小规模非常重要。

2,LBP,HOG等编码方式产生的编码值不是均匀分布的,一些编码在现实世界中很少出现,使得编码值的直方图信息量减少且不紧凑,从而降低描述子的区分能力。

为解决这些问题,本文提出基于学习的编码方式。它使用无监督学习的方式把面部的局部微结构编码成一个离散码值集合。学习的编码值更加均匀,提高了它的区分度。并采用PCA降维,得到编码直方图。还发现对直方图进行适当的归一化机制可以提高区分度。

通过两个简单的无监督学习方法,我们得到了具有高区分度且紧凑的人脸描述子,即LE描述子。
(2次无监督学习:一是用来进行面部微结构的编码,一是从训练样本中得到编码本)


近来许多研究者也将学习的方法应用到人脸识别(如子空间学习等等),但是很少有针对局部特征编码以及描述子紧凑化的研究工作。


人脸匹配也是很重要的一个部分。
很多操作中,会通过使用人脸标定点进行相似变换或者仿射变化来对齐人脸区域。但是二维的校正不足以解决姿态变化的问题,并且大量的标定误差也会导致整张脸无法正确校正。3D的对齐更加科学但是易于出错且计算量大。

【32】提出几何信息编码,使用隐式匹配算法解决为未校正和姿态问题。
【10】提出弹性图匹配,部分匹配也能解决姿态变化和背景切分

为解决姿态变化问题,本文提出姿态适应性的匹配方法。我们发现当输入脸对的姿态组合不同时,人脸各个特定的区域对特征的贡献不同。(如正脸大笑+正脸无表情组合对,嘴巴区域的特征贡献相应减小)。基于此,我们训练了一系列特定姿态分类器。每个分类器针对一种姿态对组合,来进行最终的决策。

结合强有力的LE描述子和姿态自适应的匹配方案,本系统在LFW和MulitPIE上达到了极好的效果。


2.系统框架概述

分为两层:LE描述子;姿态自适应人脸匹配。
首先,通过标准基准点检测器提取面部标定点。
然后,基于标定点,取出面部的九个区域(鼻子,嘴巴。。)并且对齐
然后,将各个子区域通过DoG滤波器去除低频和高频的光照分量。
然后,对每个子区域图像,每个像素点都得到一个低水平的特征向量(如SIFT?)并且使用LE编码本对它编码。得出子区域的编码图(即新的特征向量)。
然后,对子区域特征向量,计算出分块直方图并连接成大直方图(如分为2*2块)。再进行PCA降维和归一化,即得该子区域的紧凑的LE描述子。
然后,对输入的人脸对,计算每个对应子区域的LE描述子之间的L2距离,来刻画子区域间的相似度。
然后,九个对应子区域间的相似度得分组成子区域相似度向量。送入姿态自适应分类器——由一系列特定姿态分类器构成。
最后,找出输入待匹配图片的对的最优的姿态组合,使用相应的特定姿态分类器做出最后的决策。


测试概述:
使用LFW人脸库,从其中取出10个子集,每个子集包含300对图片。系统需要运行10次。
每次取一个子集做测试,使用另外的9个子集做训练。将得到的10组识别性能取平均值作为系统性能的评估。


3.LE描述子的提取
本节描述LE描述子提取的关键步骤。为了精确的研究LE描述子的性能,本节使用整张人脸区域进行LE描述子的提取,而不是像系统框图那样采用子区域提取LE描述子。

采样和归一化

在图像的每个像素上,我们采样它周围的像素点,构成一个低水平的特征向量。第二种采样模式是本文中最好的单一模式也是本系统默认的采样模式。

采样之后,我们将采样得到的特征向量归一化到单位长度。结合DoG处理的归一化使得特征向量对局部的光度仿射变化呈现不变性。
???如何从采样点得到特征向量?)

LE编码与直方图描述
接下来应用LE编码本对归一化之后的特征向量(整张脸)进行编码,得到离散编码值。在本方法中,编码本是使用人脸图片进行无监督学习训练得到的。我们尝试了三种无监督的学习方法:K-means,PCA tree[7],random-projection tree[7].
(??如何训练)
K-means常用于处理数据聚类,random-projection tree和PCA tree在向量量化方面比较有效。

在我们的实现中,random-tree和PCA tree基于均匀编码的标准递归地切分数据,也即树的每个叶子得到相同数量的向量。也即所有的量化编码值在向量空间内有相似的出现频率。

得到整张脸的“LE编码图像”后,使用【1】中的方法,将“图像(84*96)”分块为5*7。每个分块计算LE编码的直方图,并将35块连接起来构成整张脸的描述子。


学习方式的选择(K-means,PCA tree,random-projection tree)以及编码数量对我们的LE编码非常重要。图5显示了在设置不同编码数量时,三种学习方式得到的LE描述子的识别性能(明显高于HOG,Gabor,59-code LBP).



//我们从LFW训练集中选择1000张图片训练LE编码本。对每张图片(84*96=8064)采样得到8064个特征向量作为训练样本——即每个像素点的特征(每个像素点都会得到一段编码,即一个特征向量)都拿来训练。当编码数量从4——2的17次幂时,画出识别率。random-projection tree较优。


PCA 降维
如果直接采用连接的直方图作为最终的描述子,会使得人脸特征维度过高,降低识别速度。应用PCA压缩连接的直方图,称压缩后的描述子叫做LE描述子。

惊奇的发现,如果在PCA降维后使用归一化,将大幅提高识别的性能。

仅仅只做PCA降维将使识别率相对于不压缩降低6%,而PCA降维后再采用L1,L2归一化,相对于不压缩可以提高5%的识别率。

这个发现可以这样表述:在降维后的特征空间内,特征间的角度差异是识别的关键因素。为了证明这一点,我们重复了同样的实验,只是把特征换做LBP特征。PCA降维且归一化的识别率比不降维的识别率高3%,仅做PCA降维时比不降维的识别率低5%。

为了得到LE描述子的最优参数设置,我们广泛研究了编码数量和PCA维度的参数组合,选择编码数量为256和PCA维度为400,作为我们接下来实验的默认设置。

总结LE描述子:我们的LE描述子达到了81.22%的识别率,明显优于之前的各种描述方法(LBP,Gabor等),并且400维的特征向量仅仅是59—LBP尺寸的20%。这证明我们的特征描述子提取流程(预处理,采样与归一化,LE编码,降维)是高效地生成了一个简洁且具有高区分度的的描述子。



4.姿态自适应的匹配

上节采用整幅人脸图对齐来进行匹配,这节将在子区域水平上进行姿态自适应的匹配,对于大幅度的姿态变化将带来更好的表现,也会提升识别准确度。

子区域水平上的人脸对齐
本文并非使用二维的全脸相似性变换进行对齐,而是对9个分离的子区域单独采用相似性变换。对每个子区域选定2个点计算相似性变换关系。相比于二维的全脸对齐,在大幅姿态变化时,子区域的对齐具有更好的优势。标定点的误差带来的影响也被减小了。下图比较了不同对齐方法的性能。



姿态自适应匹配
当使用子区域水平的对齐时,人脸相似度分数即为各个对应的子区域的相似度的累加。我们发现,当姿态呈现不同变化时,各个子区域的贡献不同。比如,当我们匹配一张正脸和一张转向左侧的脸时,左眼的特征就不那么重要了。基于这个发现,我们采取简单的姿态自适应匹配方法。

首先,我们将输入人脸的姿态分成3类姿态——正脸F,左脸L,右脸R.
为了解决这个姿态分类问题,我们从MultiPIE中选出3张图片,每种姿态一张图片。这三张图片的其它因素如人物身份,光照表情保持相同。分别计算这三张不同姿态的图片与待测图片的相似度,哪种姿态的图片与待测图片的相似度最高,那么待测图片的姿态就是这种姿态。

实际操作中,对每张脸给出一个预估的姿态,人脸图片对进行匹配时会出现不同姿态组合(FF,LL,RR,LR(RL),LF(FL),RF(FR))。我们最终的姿态自适应分类器由一系列线性SVM分类器构成,每个SVM分类器由一个特定姿态组合的人脸对图片训练得到。

与输入待匹配的人脸对有相同的姿态组合的“最佳”分类器才可以做出最终的决策(Y or N)。经过姿态自适应匹配,我们可以通过这种分治方法解决大幅姿态变化问题。

姿态自适应匹配的评估
为了更好的评估本系统中姿态自适应匹配对姿态变化的处理能力。对每一种姿态组合,我们从LFW人脸库中随机地选取了3000个待测人脸对,作为一个新的测试集开展实验,新的测试集总共包含3000*6=18000个人脸对。我们使用其中的一半用来训练(每种姿态组合1500对),剩下的一半拿来测试。各个子区域的分块如下图所示。结果显示不采用姿态自适应时的识别率为76%,采用后提高到78%。





5.测试结果

在LFW上的结果


本系统虽然是用LFW人脸库训练的,但是在MultiPIE人脸库上取得了很好的识别性能,因为LFW库接近于自然世界中的情景。具有普适性。



尽管面部微结构编码是由学习得来的。但是采样模式仍然是人工设计的,若采样模式也是使用学习技术的话,有可能取得更好的性能表现。
















### Skeleton-Based Action Recognition Using Adaptive Cross-Form Learning In the realm of skeleton-based action recognition, adaptive cross-form learning represents a sophisticated approach that integrates multiple modalities to enhance performance. This method leverages both spatial and temporal information from skeletal data while adapting dynamically across different forms or representations. The core concept involves constructing an end-to-end trainable framework where features extracted from joint coordinates are transformed into various intermediate representations such as graphs or sequences[^1]. These diverse forms capture distinct aspects of human motion patterns effectively: - **Graph Representation**: Models interactions between joints by treating them as nodes connected via edges representing bones. - **Sequence Modeling**: Treats each frame's pose estimation results as elements within time-series data suitable for recurrent neural networks (RNN). Adaptive mechanisms allow seamless switching among these forms based on their suitability at different stages during training/inference processes. Specifically designed modules learn when and how much weight should be assigned to specific transformations ensuring optimal utilization of available cues without overfitting any single modality. For implementation purposes, one might consider employing Graph Convolutional Networks (GCNs) alongside Long Short-Term Memory units (LSTMs). GCNs excel in capturing structural dependencies present within graph structures derived from skeletons; meanwhile LSTMs handle sequential modeling tasks efficiently handling long-range dependencies found along video frames' timelines. ```python import torch.nn as nn class AdaptiveCrossFormModule(nn.Module): def __init__(self): super(AdaptiveCrossFormModule, self).__init__() # Define components responsible for processing individual form types here def forward(self, input_data): # Implement logic determining which transformation path(s) will process 'input_data' pass def train_model(model, dataset_loader): criterion = nn.CrossEntropyLoss() optimizer = ... # Initialize appropriate optimization algorithm for epoch in range(num_epochs): running_loss = 0.0 for inputs, labels in dataset_loader: outputs = model(inputs) loss = criterion(outputs, labels) optimizer.zero_grad() loss.backward() optimizer.step() running_loss += loss.item() ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值