ArcFace 论文大颗粒粗读笔记（三）

最新推荐文章于 2025-11-15 00:14:59 发布

原创

最新推荐文章于 2025-11-15 00:14:59 发布 · 1.2k 阅读

3 ·

CC 4.0 BY-SA版权

提出了一种名为ArcFace的加法角余量损失函数，它能显著增强深度卷积神经网络（DCNNs）学习的特征嵌入的判别能力。在多个公开的人脸识别数据集上，ArcFace的表现超越了现有技术，特别是在LFW、YTF、CALFW、CPLFW、MegaFace、IJB-B、IJB-C、Trillion-Pairs和iQIYI-VID等数据集上。研究还对比了ArcFace与其他损失函数，如SphereFace和CosFace的性能。

续二，这节内容主要讲实验部分，对应论文的第三章，没什么好讲的，证明他前面说过的话而已。

数据集

如表1所示，我们分别采用CASIA [43]，VGGFace2 [6]，MS1MV2和DeepGlint-Face（包括MS1M-DeepGlint和Asian-DeepGlint）[2]作为我们的训练数据，以便与其他方法进行公平比较。。请注意，建议的MS1MV2是MS-Celeb-1M数据集的半自动改进版本[10]。据我们所知，我们是第一个使用种族特定注释器进行大规模面部图像注释的人，因为如果注释器对身份不熟悉，边界情况（例如硬样本和嘈杂样本）将很难区分。在训练过程中，我们探索有效的面部验证数据集（例如LFW [13]，CFP-FP [30]，AgeDB-30 [22]），以检查不同设置下的改进。除了使用最广泛的LFW [13]和YTF [40]数据集，我们还报告了ArcFace在最近的大姿态和大年龄数据集（例如CPLFW [48]和CALFW [49]）上的性能。我们还对大型图像数据集（例如MegaFace [15]，IJB-B [39]，IJB-C [21]和Trillion-Pairs [2]）和视频数据集（iQIYI-VID [20]进行了广泛的测试]）。

实验设置：

对于数据的预处理，根据最近文献【18,37】通过使用五个面部坐标点的形式生成标准化的人脸裁切图像。对于嵌入网络使用了resnet50和resnet100【12,11】，在最后一个卷积层之后使用BN+Dropout+FC+BN的结构以获得最终的512维度的嵌入特征。在本文中，我们使用（[训练数据集，网络结构，损失]）来促进对实验设置的理解。我们按照[37]的方法将特征比例s设置为64，并将ArcFace的角裕度m选择为0.5。本文所有实验均由MXNet实施[8]。我们将批量大小设置为512，并在四个NVIDIA Tesla P40（24GB）GPU上训练模型。在CASIA上，学习率从0.1开始，以20K，28K迭代除以10。训练过程以32K迭代完成。在MS1MV2上，我们将学习率划分为100K，160K迭代，并以180K迭代完成。我们将动量设置为0.9，权重衰减设置为5e4。在测试期间，我们仅保留特征嵌入网络而没有完全连接的层（ResNet50为160MB，ResNet100为250MB），并提取512-D特征（ResNet50为8.9 ms / face）以及每个标准化面孔的15.4 ms / face（对于ResNet100）。要获取模板（例如IJB-B和IJB-C）或视频（例如YTF和iQIYI-VID）的嵌入功能，我们只需计算模板中所有图像或视频中所有帧的特征中心。请注意，训练集和测试集之间的重叠身份被删除以进行严格评估，并且我们仅对所有测试使用单个作物。

损失函数的消融研究: