解纠缠表示学习及其在人脸分析中的应用
在当今的识别领域,学习强大且无歧义的对象表示是每个现代识别方法的核心目标。这些经过学习得到的解纠缠表示,能够助力构建高效的分类器,在人脸分析等众多领域成为了热门的研究话题。
1. 解纠缠表示学习基础
大多数表示学习问题采用编码器/解码器方法,以在表示空间中实现强大的特征嵌入。具体来说,编码器 (f(\cdot)) 将图像空间中的像素投影到表示空间,得到低维特征嵌入,这些嵌入可以是一维向量、二维映射或多维流形。随后,解码器 (g(\cdot)) 将嵌入的特征表示重新映射到目标空间,完成分类标签、检测位置和分割边界等任务。
在不同的人脸分析任务中,编码器和解码器有着不同的应用方式:
- 人脸识别 :编码器提取图像特征,然后将其投影到一个独热向量中,以表示面部类别标签。
- 人脸检测 :编码器学习与空间相关的特征图,解码器根据这些特征图生成感兴趣区域,用于人脸定位。
- 人脸生成 :编码器对图像进行处理,得到低维嵌入,再由解码器恢复出呈现逐像素面部信息的图像。
表示空间通常设计为低维且变化受限的,其中的嵌入信息要丰富、简洁,并能对最终目标具有可解释性。然而,学习鲁棒的表示面临诸多挑战,主要体现在以下两个方面:
- 数据标注成本高 :以三个近期提出的人脸识别系统为例,训练所需的标注数据量巨大,不仅成本高昂,而且耗时费力。具体数据如下表所示:
| 方法 | 训练数据集 | 图像数量 | 主体数量 |
| ---- | ---
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



