续二,这节内容主要讲实验部分,对应论文的第三章,没什么好讲的,证明他前面说过的话而已。
数据集
如表1所示,我们分别采用CASIA [43],VGGFace2 [6],MS1MV2和DeepGlint-Face(包括MS1M-DeepGlint和Asian-DeepGlint)[2]作为我们的训练数据,以便与其他方法进行公平比较。 。请注意,建议的MS1MV2是MS-Celeb-1M数据集的半自动改进版本[10]。据我们所知,我们是第一个使用种族特定注释器进行大规模面部图像注释的人,因为如果注释器对身份不熟悉,边界情况(例如硬样本和嘈杂样本)将很难区分。在训练过程中,我们探索有效的面部验证数据集(例如LFW [13],CFP-FP [30],AgeDB-30 [22]),以检查不同设置下的改进。除了使用最广泛的LFW [13]和YTF [40]数据集,我们还报告了ArcFace在最近的大姿态和大年龄数据集(例如CPLFW [48]和CALFW [49])上的性能。我们还对大型图像数据集(例如MegaFace [15],IJB-B [39],IJB-C [21]和Trillion-Pairs [2])和视频数据集(iQIYI-VID [20]进行了广泛的测试])。

实验设置:
对于数据的预处理,根据最近文献【18,37】通过使用五个面部坐标点的形式生成标准化的人脸裁切图像。对于嵌入网络使用了resnet50和resnet100【12,11】,在最后一个卷积层之后使用BN+Dropout+FC+BN的结构以获得最终的512维度的嵌入特征。在本文中,我们使用([训练数据集,网络结构,损失])来促进对实验设置的理解。我们按照[37]的方法将特征比例s设置为64,并将ArcFace的角裕度m选择为0.5。本文所有实验均由MXNet实施[8]。我们将批量大小设置为512,并在四个NVIDIA Tesla P40(24GB)GPU上训练模型。在CASIA上,学习率从0.1开始,以20K,28K迭代除以10。训练过程以32K迭代完成。在MS1MV2上,我们将学习率划分为100K,160K迭代,并以180K迭代完成。我们将动量设置为0.9,权重衰减设置为5e4。在测试期间,我们仅保留特征嵌入网络而没有完全连接的层(ResNet50为160MB,ResNet100为250MB),并提取512-D特征(ResNet50为8.9 ms / face)以及每个标准化面孔的15.4 ms / face(对于ResNet100)。要获取模板(例如IJB-B和IJB-C)或视频(例如YTF和iQIYI-VID)的嵌入功能,我们只需计算模板中所有图像或视频中所有帧的特征中心。请注意,训练集和测试集之间的重叠身份被删除以进行严格评估,并且我们仅对所有测试使用单个作物。
损失函数的消融研究:

提出了一种名为ArcFace的加法角余量损失函数,它能显著增强深度卷积神经网络(DCNNs)学习的特征嵌入的判别能力。在多个公开的人脸识别数据集上,ArcFace的表现超越了现有技术,特别是在LFW、YTF、CALFW、CPLFW、MegaFace、IJB-B、IJB-C、Trillion-Pairs和iQIYI-VID等数据集上。研究还对比了ArcFace与其他损失函数,如SphereFace和CosFace的性能。
最低0.47元/天 解锁文章
1756

被折叠的 条评论
为什么被折叠?



