Abstract
我们提出了一种通过从数据中进行相似度度量训练的方法。本方法可以用在识别或者认证应用,这些应用中类别很多且训练时未知,并且单个类别的训练数据数量很少。主要的思想是学习一个函数,将输入映射到目标空间中,使得目标空间中的L1距离基本与输入空间中的语义特征一致。这种方法应用到了人脸认证任务中。学习过程最小化具有区分度的损失函数,使得两个来自相同人的人脸相似度度量变小,不同人的人脸相似度变大。从原始数据到目标空间的映射是通过一个结构设计成对几何变换鲁邦的神经网络来实现的。系统在Purdue/AR人脸数据库,数据中的人脸具有姿态,光照,表情,位置,例如墨迹,围巾的遮挡等相当高的多样性。
1、Introduction
使用神经网络或支持向量机等判别方法进行分类的传统方法通常要求预先知道所有类别。他们还要求每一类都要有训练样本。此外,这些方法本质上局限于相当少的类别(大约100个)。这些方法不适用于类别数量非常多、每个类别的样本数量很少或者在训练时只能得到一个所有类别子集训练数据的情况。这类应用包括人脸识别和人脸验证:类别数可以是成百上千,但每个类别只有几个样本。解决这类问题的一种常见方法是基于距离的方法,它计算需要分类或验证的pattern以及存储的prototypes之间的相似性度。另一种常见的方法是在降维空间中使用非判别(生成)概率方法,在这种情况下,可以在不使用其他类别的样本的情况下训练一个类别的模型。要将判别学习技术应用到这类应用中,我们必须设计一种方法,可以从可用的数据中提取有关问题的信息,而不需要关于类别的特定信息。
本文中提出的方法是从数据中学习similarity metric。这个相似性度量稍后可以用来比较或匹配以前未出现的新类别的样本(例如,训练中不在样本集中的人脸)。本文提出了一种用于训练相似度度量的判别训练方法。该方法可应用于类别数目非常多和/或在训练时无法获得所有类别样本的分类问题。
其主要思想是找到一个将输入模式映射到目标空间的函数,使目标空间中的简单距离(比如欧式距离)近似于输入空间中的“语义”距离。更准确的说,有一系列参数为W的函数,我们需要寻找参数W使得相似度度量值
在
与
属于同一类的时候很小,不同类的时候很大。该系统根据从训练集中提取的成对样本的形式进行训练。当样本对属于同一类时,损失函数通过训练最小化
的方式减少,当样本对不是同一类时,损失函数通过最大化
的方式减少。除了W的不同,不假设
有什么不一样的地方。由于使用相同的函数G和相同的参数W来处理两个输入,所以相似性度量是对称的。这被称为孪生架构【4】。
为了利用该方法构建人脸验证系统,我们首先对模型进行训练,使其产生的输出向量对于同一个人的成对图像来说是近的,对于不同人的成对图像来说是远的。这样该模型可以作为训练时未出现过人脸样本之间的相似性度量。
该方法的一个重要方面是我们在选择的时候有完全没限制的。特别地,我们将使用对样本的几何畸变鲁棒性很好的结构来提取特征表示,例如卷积网络【8】。由于目标空间的维数较低,且该空间的自然距离不受输入无关畸变的影响,我们可以很容易地从非常少的样本中估计每个新类别的概率模型。
1.1 Previous Work
略
2、The General Framework
概率模型为被建模变量的每一个可能的参数分配一个归一化的概率,而基于能量的模型(EBM)为这些参数分配一个非归一化的能量【18,9】。在这样的系统中,预测是通过搜索使能量最小化的变量的参数来实现的。EBMs用于必须比较各种参数的能量才能做出决策(分类、验证等)的情况。可训练的相似性度量可以看作是将能量与一对输入模式相关联。在最简单的人脸认证的设置中,我们将X2简单假设成声称目标,将最小化的
与提取设定的阈值比较。
EBMs相对于传统的概率模型,特别是生成模型的优势在于,不需要估计输入空间上的归一化概率分布。不使用正则化使我们避免计算可能难以处理的partition函数。也是的我们在选择模型结构的时候有可观的自由度【9】。学习是通过找到W来完成的,它最小化了一个适当设计的损失函数,并通过一个