author={Khalil Khan and Massimo Mauro and Riccardo Leonardi}
原文链接:Multi-class semantic segmentation of faces | IEEE Conference Publication | IEEE Xplore
摘要
介绍了多类人脸的分割问题。与以前只考虑几个类(通常是皮肤和头发)的工作不同,标签集在这里被扩展到六个类别:皮肤、头发、眼睛、鼻子、嘴和背景。从MIT-CBCL和FEI人脸数据库中获取的包含70张图像的数据集被手动注释并公开1。从均匀采样的正方形块中提取颜色、形状和位置三种局部特征。利用随机决策森林建立判别模型,并进行分类。探索了多种不同的特征和参数组合,以找到最佳的可能模型配置。我们的分析表明,用一个相当简单的模型就可以达到非常好的性能(精确度约为93%)。
一、介绍
像素级语义分割是中级视觉的一个重要课题,其目的是将图像区域联合分类和分组为连贯的部分。在这个问题上已经进行了广泛的研究工作,主要是由PASCAL VOC分割挑战驱动的[1]。尽管如此,有限数量的作品专门关注面部。
事实上,面部标记在许多情况下都是潜在的兴趣。Huang等人[2]表明,简单的学习算法可以用于预测高级特征,例如姿势,从将面部图像标记为头发,皮肤和背景区域开始。在他们的视野中,诸如分割的中间水平特征为人脸识别提供了重要信息,并且在估计其他特征(诸如性别、年龄、头发颜色、皮肤颜色等)方面非常有用。心理学文献似乎证实了他们的主张,因为从人脸区域提取的重要面部特征(前额,头发)被证明是人类视觉系统的信息,以便识别面部身份[3,4]。
移动到不同的应用场景,头发建模,合成和动画已经成为计算机图形学中的活跃研究课题[5,6]。此外,面部处理和增强应用,如皮肤平滑[7],肤色美化[8]和虚拟化妆[9]开始出现在文献中。在所有这样的应用中,精确的知识-在像素级-人脸段是至关重要的。
二、相关工作
几位作者已经建立了用于分割头发、皮肤和其他面部部分的系统[2,10-13]。Yacoob和Davis [10]的工作是第一个专门针对头发标记的工作。首先建立了头发颜色的高斯混合模型,然后采用区域生长算法对头发区域进行改进。Lee等人[11]通过学习六种不同的发型和其他混合模型来学习头发、皮肤和背景的颜色分布,从而扩展了GMM方法。Huang等人[2]使用基于超像素的条件随机场(CRF)[14],在LFW数据集[15]的图像上进行训练,以消除相同类别之间的歧义。Scheffler等人[12]学习了头发、皮肤、背景和衣服的颜色模型,并且还为每个标签引入了空间先验。他们将这些信息与CRF结合,以确保当地标签的一致性。最后,Kae等人[13]提出了一种GLOC(GLObal和LOCal)模型,该模型结合了CRF和形状玻尔兹曼机[16]的优点,以联合实施局部一致性和适当的全局形状结构。据我们所知,这是迄今为止性能最好的毛发-皮肤-背景分割算法.
相对于现有技术,将人脸类别扩展为更多的语义类别可以打开新的研究场景,并增强大多数先前引用的应用程序的性能和灵活性。例如,在一个示例中,皮肤美化的应用当然可以受益于将“真实的”皮肤与嘴和眼睛区分开的方法。由于这些原因,在我们的工作中,我们将标签集扩展到六个类别:皮肤,头发,眼睛,鼻子,嘴巴和背景。
与之前使用生成混合模型方法的几项工作不同,我们纯粹依赖于标记数据,并通过使用随机森林[17]分类器构建判别模型。我们分类的图像内容考虑正方形补丁作为处理原语。我们采用三种地方特色,占颜色,形状和位置。空间线索结合在两个不同的设置。我们调查的影响,每个功能,其参数和空间组合设置,以找到最佳的配置。我们构建并公开提供了一个由70张手动标记的图像组成的数据集,这些图像取自MIT-CBCL [18]和FEI [19]人脸数据库1。我们分析了不同的设置,并显示出非常好的性能,获得了一个相当简单的模型。
三、PROPOSED ALGORITHM
3.1Patches and Feature Extraction
许多语义分割算法工作在像素或超像素级别。在这里,我们使用正方形补丁作为处理原语:我们对每个补丁的图像内容进行分类,并将标记转移到补丁的中心像素。我们的方法有一些好处:这些补丁中包含的信息比单个像素更全面。同时,每个像素都被单独分类,这与超像素方法不同,在超像素方法中,错误可能会损害整个超像素区域的分类。在训练和测试中,我们将原始图像重新缩放为具有恒定的高度H = 512像素,而宽度W相应地变化以保持原始图像比率。因此,对于不同的面部图像,给定的补丁维度的内容类型是可比较的。
我们使用颜色和形状的局部特征进行分类,结合空间信息。作为颜色特征,我们采用HSV颜色直方图:色调,饱和度和方差直方图连接起来,形成一个单一的特征向量。我们探索了不同的参数化补丁尺寸(DHSV= 16×16,32×32和64×64)和直方图箱的数量(Nbins = 16,32和64)。对于每个补丁,我们得到特征向量
为了解释形状信息,我们提取了广泛使用的HOG特征[20],在DHOG = 16×16,32×32和64×64之间改变补丁尺寸。使用这些值,每个块分别生成特征向量f16×16 HOG ∈ R36、f32×32 HOG ∈ R324和f64×64 HOG ∈ R1764。
作为空间信息,我们使用像素的相对位置。给定位置(x,y)处的像素,相对位置被定义为floc = [x/W,y/H] ∈ R2。
3.2Classification with spatial information
在第2节中描述了拟定算法的示意图。
由于分类是在每个位置独立执行的,因此它包括用其最大概率类别标记每个像素:
其中C = {皮肤、头发、眼睛、鼻子、嘴巴、背景},并且随机变量C、S和L分别是特征fHSV(颜色)、fHOG(形状)和floc(位置)。
我们研究了两种不同的设置,将空间信息集成到分类中:作为特征串联和作为空间先验。在第一种情况下,2D特征絮凝物在唯一特征向量中与fHSV和fHOG连接,该特征向量作为分类器的输入给出。在第二种情况下,使用floc来估计空间先验p(c| L),然后分类被执行为:
我们使用随机森林来训练模型,利用C++ ALGLIB [21]实现。
四、实验
分割结果示例。第二行标记了基础事实,第三行是算法输出。
4.1Experimental setup
我们用于训练和评估的数据集由70张正面人脸图像组成,这些图像取自MIT-CBCL和FEI数据库。这些面孔呈现出中等程度的变异性,因为我们包括了不同种族、性别和年龄的人。此外,面部在位置和比例上并不完全对齐。这使得该算法适合于对先前人脸检测得出的边界框执行人脸分割。我们随机选择20张图像的子集用于在训练过程中提取补丁,而剩余的50张图像用于测试。准确性被用作性能指标。
4.2Results
HSV参数的影响。HSV颜色特征有两个要考虑的重要参数:计算直方图的补丁维度DHSV和直方图本身的箱数Nbins。为了评估两者的影响,第一阶段的实验是通过仅使用位置和颜色特征而忽略形状来执行的。我们考虑来自集合DHSV = {16×16,32×32,64×64}和Nbins = {16,32,64}的所有9个值的组合。我们发现,当DHSV = 16 × 16和Nbins = 32时,可以实现最佳准确度- 92.27%。结果报告于表1和表2中。特征串联(FC)设置用于包含空间信息。
HOG特性和参数的影响。然后我们引入HOG特征,并运行第二阶段的实验来评估面片维数DHOG的影响。结果表明,当DHOG = 64 × 64,FC设置时,获得了最好的精度,达到了92.95%。结果见表3。
空间设置的影响。我们通过使用位置特征的特征拼接和空间先验(SP)设置来运行所有先前的测试。在表4中,我们显示了在具有不同特征和参数配置的两种情况下获得的结果。结果突出表明,在精度方面,FC设置始终优于SP设置。