46、人脸身份识别模型:原理、局限与改进

人脸身份识别模型:原理、局限与改进

在人脸身份识别领域,有多种模型被用于解决不同的识别问题。下面将详细介绍几种常见的模型及其特点、局限性和改进方法。

子空间身份模型

子空间身份模型可以用概率形式重新表示。对于给定的隐藏变量 $h’$,观测变量 $x’$ 的概率分布为:
$Pr(x′|h′) = Norm_{x′}[µ′ + Φ′h′,Σ′]$
隐藏变量 $h’$ 的先验概率分布为:
$Pr(h′) = Norm_{h′}[0,I]$
其中,$\Sigma′$ 定义为:
$\Sigma′ = \begin{bmatrix} \Sigma & 0 \ 0 & \Sigma \end{bmatrix}$

通过计算复合变量 $x’$ 和 $h’$ 的联合似然,并对 $h’$ 进行边缘化,可以得到似然 $Pr(x_1,x_2|w = 0)$:
$Pr(x_1,x_2|w = 0) = \int Pr(x′|h′)Pr(h′) dh′ = Norm_{x′}[µ′,Φ′Φ′^T + Σ′]$

当两张人脸匹配($w = 1$)时,两个数据示例由相同的隐藏变量生成,其复合生成方程为:
$\begin{bmatrix} x_1 \ x_2 \end{bmatrix} = \begin{bmatrix} \mu \ \mu \end{bmatrix} + \begin{bmatrix} \Phi \ \Phi \end{bmatrix} h_{12} + \begin{bmatrix} \epsilon_1 \ \epsilon_2 \end{bmatrix}$

这个过程可以看作是对数据的两种不同模型的似然进行比较。虽然将人脸分类为不同($w = 0$)的模型有两个变量($h_1$ 和 $h_2$),而将人脸分类为相同($w = 1$)的模型只有一个变量($h_{12}$),但由于在似然计算中对这些变量进行了边缘化,最终表达式中不包含这些隐藏变量,这是贝叶斯模型选择的一个例子。

除了人脸验证任务,子空间身份模型还可用于其他识别任务,如:
- 闭集识别 :在给定的 $N$ 张图库人脸中,找出与给定探测人脸匹配的那张。
- 开集识别 :从 $N$ 张图库人脸中选择与探测人脸匹配的一张,或者确定图库中没有匹配的人脸。
- 聚类 :给定 $N$ 张人脸,确定有多少不同的人,并将每张人脸分配给相应的人。

然而,子空间身份模型存在三个主要局限性:
1. 个体内协方差模型不足 :其对个体内协方差的建模(对角线形式)不够充分。
2. 线性模型的局限性 :它是一个线性模型,无法对非高斯密度进行建模。
3. 无法处理大的风格变化 :不能处理风格的大变化,例如正面脸与侧面脸的差异。

为了解决这些问题,分别引入了概率线性判别分析、非线性身份模型和多线性模型。

概率线性判别分析(PLDA)

子空间身份模型将数据解释为身份分量和加性噪声项的总和,但噪声项过于简单,将个体内变化描述为具有对角协方差的正态分布。而概率线性判别分析(PLDA)使用了更复杂的个体内变化模型。

第 $i$ 个人的第 $j$ 张图像 $x_{ij}$ 现在被描述为:
$x_{ij} = \mu + \Phi h_i + \Psi s_{ij} + \epsilon$
其中,$s_{ij}$ 是一个隐藏变量,表示这张人脸的风格,它描述了来自不受控制的观察参数对图像的系统性贡献。$\Phi$ 的列描述了个体间变化的空间,$h_i$ 确定了这个空间中的一个点;$\Psi$ 的列描述了个体内变化的空间,$s_{ij}$ 确定了这个空间中的一个点。

该模型的概率形式为:
$Pr(h_i) = Norm_{h_i}[0,I]$
$Pr(s_{ij}) = Norm_{s_{ij}}[0,I]$
$Pr(x_{ij}|h_i,s_{ij}) = Norm_{x_{ij}}[\mu + \Phi h_i + \Psi s_{ij},\Sigma]$

学习过程
  • E 步 :将与同一身份相关的所有 $J$ 个观测值 ${x_{ij}} {j = 1}^J$ 收集在一起,形成复合系统:
    $\begin{bmatrix} x
    {i1} \ x_{i2} \ \vdots \ x_{iJ} \end{bmatrix} = \begin{bmatrix} \mu \ \mu \ \vdots \ \mu \end{bmatrix} + \begin{bmatrix} \Phi & \Psi & 0 & \cdots & 0 \ 0 & \Phi & 0 & \Psi & \cdots & 0 \ \vdots & \vdots & \vdots & \vdots & \ddots & \vdots \ 0 & 0 & 0 & \cdots & \Psi \end{bmatrix} \begin{bmatrix} h_i \ s_{i1} \ s_{i2} \ \vdots \ s_{iJ} \end{bmatrix} + \begin{bmatrix} \epsilon_{i1} \ \epsilon_{i2} \ \vdots \ \epsilon_{iJ} \end{bmatrix}$
    这个系统具有原始子空间身份模型 $x_i’ = \mu’ + \Phi’ h_i’ + \epsilon’$ 的形式,因此可以使用相关公式计算所有隐藏变量的联合后验概率分布。
  • M 步 :为每个图像写出复合生成方程:
    $x_{ij} = \mu + \begin{bmatrix} \Phi & \Psi \end{bmatrix} \begin{bmatrix} h_i \ s_{ij} \end{bmatrix} + \epsilon_{ij}$
    该方程具有标准因子分析模型 $x_{ij} = \mu + \Phi’’ h_{ij}’’ + \epsilon_{ij}$ 的形式,可以使用相关公式求解未知参数。计算需要期望 $E[h_{ij}’‘]$ 和 $E[h_{ij}’’ h_{ij}’‘^T]$,这些可以从 E 步计算的后验中提取。
推理过程

与子空间身份模型一样,通过使用贝叶斯规则比较模型的似然来进行推理。例如,在验证任务中,比较将两个数据示例 $x_1$ 和 $x_2$ 解释为具有各自身份 $h_1$ 和 $h_2$ 或共享单个身份 $h_{12}$ 的模型。
当身份不同($w = 0$)时,数据生成方式为:
$\begin{bmatrix} x_1 \ x_2 \end{bmatrix} = \begin{bmatrix} \mu \ \mu \end{bmatrix} + \begin{bmatrix} \Phi & 0 & \Psi & 0 \ 0 & \Phi & 0 & \Psi \end{bmatrix} \begin{bmatrix} h_1 \ h_2 \ s_1 \ s_2 \end{bmatrix} + \begin{bmatrix} \epsilon_1 \ \epsilon_2 \end{bmatrix}$
当身份相同($w = 1$)时,数据生成方式为:
$\begin{bmatrix} x_1 \ x_2 \end{bmatrix} = \begin{bmatrix} \mu \ \mu \end{bmatrix} + \begin{bmatrix} \Phi & \Psi & 0 \ 0 & \Phi & \Psi \end{bmatrix} \begin{bmatrix} h_{12} \ s_1 \ s_2 \end{bmatrix} + \begin{bmatrix} \epsilon_1 \ \epsilon_2 \end{bmatrix}$
在对隐藏变量 $h’$ 进行边缘化后,数据 $x’$ 的似然为:
$Pr(x’) = Norm_{x’}[\mu’,\Phi’\Phi’^T + \Sigma’]$

非线性身份模型

前面讨论的模型通过线性模型描述个体间和个体内的方差,并产生正态分布的最终密度。然而,没有理由认为人脸的分布是正态的。下面介绍两种将上述模型推广到非线性情况的方法。

混合模型

由于身份子空间模型和 PLDA 都是有效的概率模型,可以用这些元素的混合来描述更复杂的分布。例如,PLDAs 混合模型可以写成:
$Pr(c_i) = Cat_{c_i}[\lambda]$
$Pr(h_i) = Norm_{h_i}[0,I]$
$Pr(s_{ij}) = Norm_{s_{ij}}[0,I]$
$Pr(x_{ij}|c_i,h_i,s_{ij}) = Norm_{x_{ij}}[\mu_{c_i} + \Phi_{c_i} h_i + \Psi_{c_i} s_{ij},\Sigma_{c_i}]$
其中,$c_i \in [1…C]$ 是一个隐藏变量,确定数据属于哪个 $c$ 个聚类。每个聚类有不同的参数,因此整个模型是非线性的。学习这个模型时,将现有的学习算法嵌入到第二个 EM 循环中,将每个身份与一个聚类关联起来。在推理时,假设如果两张人脸属于同一个人,它们必须属于同一个聚类。

基于高斯过程潜变量模型的方法

该方法的思路是在使用隐藏变量对基函数进行加权之前,将其通过一个非线性函数 $f[\cdot]$ 以诱导出复杂的密度。例如,子空间身份模型的非线性推广可以写成:
$Pr(h_i) = Norm_{h_i}[0,I]$
$Pr(x_{ij}|h_i,\mu,\Phi,\Sigma) = Norm_{x_{ij}}[\mu + \Phi f[h_i],\Sigma]$
虽然这个模型在概念上很简单,但在实践中更难处理,因为不再可能对隐藏变量进行边缘化。不过,该模型相对于因子矩阵 $\Phi$ 仍然是线性的,可以对 $\Phi$ 和均值 $\mu$ 进行边缘化,得到似然项:
$Pr(x_{ij}|h_i,\Sigma) = \int \int Norm_{x_{ij}}[\mu + \Phi f[h_i],\Sigma]d\mu d\Phi$
这个模型可以用变换后的隐藏变量 $f[h]$ 的内积来表示,因此适合进行核化。但由于不能对 $h_i$ 进行边缘化,在推理阶段不再可能直接精确地比较模型似然,不过在实践中有一些近似方法。

非对称双线性模型

前面讨论的模型在个体内变化较小时是足够的,但在数据风格可能发生较大变化的情况下,效果不佳。例如,在人脸识别中,当一些人脸是正面的,而另一些是侧面的时,任何给定的正面人脸与其他不匹配的正面人脸在视觉上有更多的共同点,而与匹配的侧面人脸的共同点较少。

非对称双线性模型将身份 $h_i$ 视为连续变量,将风格 $s \in {1…S}$ 视为离散变量,取 $S$ 个可能值之一。第 $i$ 个身份在第 $s$ 种风格下的第 $j$ 个示例 $x_{ijs}$ 生成方式为:
$x_{ijs} = \mu_s + \Phi_s h_i + \epsilon_{ijs}$
其中,$\mu_s$ 是与第 $s$ 种风格相关的均值向量,$\Phi_s$ 包含与第 $s$ 种风格相关的基函数,$\epsilon_{ijs}$ 是加性正态噪声,其协方差 $\Sigma_s$ 也取决于风格。

该模型的概率形式为:
$Pr(s) = Cat_s[\lambda]$
$Pr(h_i) = Norm_{h_i}[0,I]$
$Pr(x_{ijs}|h_i,s) = Norm_{x_{ijs}}[\mu_s + \Phi_s h_i,\Sigma_s]$
如果对身份参数 $h$ 和风格参数 $s$ 进行边缘化,整体数据分布(不考虑风格聚类的结构)是因子分析器的混合:
$Pr(x) = \sum_{s = 1}^S \lambda_s Norm_x[\mu_s,\Phi_s\Phi_s^T + \Sigma_s]$

学习过程

为了简单起见,假设每个训练示例的风格是已知的,因此很容易估计分类参数 $\lambda$。使用 EM 算法进行学习:
- E 步 :使用与第 $i$ 个人相关的所有训练数据,无论风格如何,计算表示身份的隐藏变量 $h_i$ 的后验分布:
$Pr(h_i|x_{i\cdot\cdot}) = \frac{\prod_{j = 1}^J \prod_{s = 1}^S Pr(x_{ijs}|h_i)Pr(h_i)}{\int \prod_{j = 1}^J \prod_{s = 1}^S Pr(x_{ijs}|h_i)Pr(h_i) dh_i}$
可以通过为 $x_{i\cdot\cdot}$ 写出复合生成方程来计算这个后验分布。
- M 步 :分别使用所有相关数据更新每种风格的参数 $\theta_s = {\mu_s,\Phi_s,\Sigma_s}$:
$\hat{\mu} s = \frac{\sum {i = 1}^I \sum_{j = 1}^J x_{ijs}}{IJ}$
$\hat{\Phi} s = \left(\sum {i = 1}^I \sum_{j = 1}^J (x_{ijs} - \hat{\mu} s)E[h_i]^T\right) \left(J \sum {i = 1}^I E[h_i h_i^T]\right)^{-1}$
$\hat{\Sigma} s = \frac{1}{IJ} \sum {i = 1}^I \sum_{j = 1}^J diag[(x_{ijs} - \hat{\mu} s)^T (x {ijs} - \hat{\mu} s) - \hat{\Phi}_s E[h_i] x {ijs}^T]$
迭代这两个步骤,直到系统收敛,对数似然不再改善。

推理过程

该模型有多种可能的推理形式:
1. 给定 $x$,推断风格 $s \in {1,…,S}$ :通过比较不同风格下的似然,选择似然最大的风格。
2. 给定 $x$,推断参数化身份 $h$ :可以使用贝叶斯规则和模型的概率形式进行推断。
3. 给定 $x_1$ 和 $x_2$,推断它们是否具有相同的身份 :比较不同身份假设下的似然。
4. 给定 $x_1$ 在风格 $s_1$ 下,将风格转换为 $s_2$ 以创建 $\hat{x}_2$ :可以根据模型的生成方程进行风格转换。

综上所述,不同的人脸身份识别模型各有优缺点。子空间身份模型虽然基础但存在一定局限性,而 PLDA、非线性身份模型和非对称双线性模型则针对这些局限性进行了改进,在不同的场景中发挥着重要作用。在实际应用中,需要根据具体的需求和数据特点选择合适的模型。

人脸身份识别模型:原理、局限与改进

模型对比与实际效果分析

为了更清晰地了解这些模型的性能差异,我们可以从多个方面进行对比分析。

模型名称 优点 缺点 适用场景
子空间身份模型 原理简单,易于理解和实现,可用于多种基本的人脸识别任务 个体内协方差模型不足,线性模型无法处理非高斯密度和大的风格变化 个体内变化较小、风格相对单一的场景
概率线性判别分析(PLDA) 对个体内变化建模更复杂,能更好地处理个体内的噪声结构 计算相对复杂,需要更多的训练数据和计算资源 对个体内噪声有一定要求,需要区分身份和风格信息的场景
非线性身份模型 能处理更复杂的分布,可适应非正态的人脸分布 部分模型在实践中处理难度大,推理时可能需要近似方法 人脸分布复杂,线性模型无法满足需求的场景
非对称双线性模型 能处理风格的大变化,可对不同风格下的身份进行有效建模 学习和推理过程相对复杂,需要已知训练数据的风格信息 存在明显风格差异,如正面脸与侧面脸混合的场景

从实际效果来看,以人脸验证任务为例,子空间身份模型由于其局限性,在处理个体内变化较大或风格差异明显的人脸时,准确率可能较低。而 PLDA 模型通过引入更复杂的个体内变化模型,能够更准确地描述人脸的特征,从而提高验证的准确率。非线性身份模型则在处理复杂分布的人脸数据时表现出色,能够捕捉到更多的细节信息。非对称双线性模型在处理风格变化较大的人脸时具有独特的优势,能够有效地识别不同风格下的同一身份。

模型选择的建议

在实际应用中,选择合适的人脸身份识别模型至关重要。以下是一些选择模型的建议:
1. 数据特点 :首先要考虑数据的特点,包括个体内变化的大小、风格的多样性以及数据的分布情况。如果个体内变化较小,风格相对单一,子空间身份模型可能就足够了;如果个体内噪声较大,需要区分身份和风格信息,PLDA 模型是一个不错的选择;如果人脸分布复杂,非正态特征明显,非线性身份模型可能更合适;如果存在明显的风格差异,如正面脸与侧面脸混合,非对称双线性模型则是首选。
2. 计算资源和时间成本 :不同的模型在计算复杂度和所需的训练时间上有所不同。子空间身份模型计算简单,所需资源较少,训练时间也较短;而 PLDA、非线性身份模型和非对称双线性模型计算相对复杂,需要更多的计算资源和训练时间。因此,在选择模型时,需要根据实际情况权衡计算资源和时间成本。
3. 任务需求 :不同的人脸识别任务对模型的要求也不同。例如,人脸验证任务主要关注两张人脸是否属于同一人,需要模型能够准确地区分身份;而人脸聚类任务则需要模型能够将不同的人脸分组到不同的类别中,需要模型具有较好的聚类能力。因此,在选择模型时,需要根据具体的任务需求来选择合适的模型。

未来发展趋势

随着人工智能和计算机视觉技术的不断发展,人脸身份识别模型也在不断演进。未来,人脸身份识别模型可能会朝着以下几个方向发展:
1. 融合多种模型 :单一的模型可能无法满足所有的需求,未来可能会将多种模型进行融合,充分发挥不同模型的优势,以提高识别的准确率和鲁棒性。例如,可以将线性模型和非线性模型相结合,或者将基于特征的模型和基于深度学习的模型相结合。
2. 深度学习的应用 :深度学习在图像识别领域取得了巨大的成功,未来可能会在人脸身份识别中得到更广泛的应用。深度学习模型能够自动学习数据的特征,具有很强的表达能力和泛化能力,可以处理更复杂的人脸数据和场景。
3. 多模态信息融合 :除了人脸图像信息,还可以结合其他模态的信息,如语音、步态等,进行身份识别。多模态信息融合可以提供更丰富的信息,提高识别的准确率和可靠性。
4. 对抗攻击防御 :随着人脸身份识别技术的广泛应用,对抗攻击也成为了一个重要的问题。未来的模型需要具备更强的对抗攻击防御能力,能够抵御各种恶意攻击,保证识别系统的安全性和可靠性。

总结

人脸身份识别模型在现代社会中具有重要的应用价值,不同的模型各有优缺点,适用于不同的场景。子空间身份模型是基础,但存在一定的局限性;概率线性判别分析、非线性身份模型和非对称双线性模型则针对这些局限性进行了改进,提高了模型的性能和适用性。在实际应用中,需要根据数据特点、计算资源和时间成本以及任务需求等因素选择合适的模型。未来,人脸身份识别模型将朝着融合多种模型、深度学习应用、多模态信息融合和对抗攻击防御等方向发展,为我们的生活和社会带来更多的便利和安全保障。

希望通过本文的介绍,读者能够对人脸身份识别模型有更深入的了解,在实际应用中能够选择合适的模型,提高人脸身份识别的准确性和可靠性。

演示了为无线无人机电池充电设计的感应电力传输(IPT)系统 Dynamic Wireless Charging for (UAV) using Inductive Coupling 模拟了为无人机(UAV)量身定制的无线电力传输(WPT)系统。该模型演示了直流电到高频交流电的转换,通过磁共振在气隙中无线传输能量,以及整流回直流电用于电池充电。 系统拓扑包括: 输入级:使用IGBT/二极管开关连接到全桥逆变器的直流电压源(12V)。 开关控制:脉冲发生器以85 kHz(周期:1/85000秒)的开关频率运行,这是SAE J2954无线充电标准的标准频率。 耦合级:使用互感和线性变压器块来模拟具有特定耦合系数的发射(Tx)和接收(Rx)线圈。 补偿:包括串联RLC分支,用于模拟谐振补偿网络(将线圈调谐到谐振频率)。 输出级:桥式整流器(基于二极管),用于将高频交流电转换回直流电,以供负载使用。 仪器:使用示波器块进行全面的电压和电流测量,用于分析输入/输出波形和效率。 模拟详细信息: 求解器:离散Tustin/向后Euler(通过powergui)。 采样时间:50e-6秒。 4.主要特点 高频逆变:模拟85 kHz下IGBT的开关瞬态。 磁耦合:模拟无人机着陆垫和机载接收器之间的松耦合行为。 Power GUI集成:用于专用电力系统离散仿真的设置。 波形分析:预配置的范围,用于查看逆变器输出电压、初级/次级电流和整流直流电压。 5.安装使用 确保您已安装MATLAB和Simulink。 所需工具箱:必须安装Simscape Electrical(以前称为SimPowerSystems)工具箱才能运行sps_lib块。 打开文件并运行模拟。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值