深度学习助力视频人脸识别:方法比较与性能分析
1. 方法概述
在视频人脸识别领域,CNN+MaxPool 和 CNN+AvePool 是常用的特征聚合方法,它们分别沿着每个特征维度进行最大池化和平均池化。这两种方法以及神经聚合网络(NAN)都能为每个视频生成 128 维的特征表示,并能在 O(1) 时间内计算相似度。
2. IJB - A 数据集实验
- 数据集介绍 :IJB - A 数据集包含从无约束环境中捕获的人脸图像和视频,具有全姿态变化和广泛的成像条件变化,极具挑战性。该数据集共有 500 个受试者,包含 5397 张图像和 2042 个视频,平均每个受试者有 11.4 张图像和 4.2 个视频。
- 实验流程
- 使用 STN 人脸检测器检测人脸并标注关键点。
- 通过相似变换对人脸图像进行对齐。
- 每个训练和测试实例被称为“模板”,可能包含 1 到 190 个混合的静态图像和视频帧。
- 采用“compare”协议进行 1:1 人脸验证,采用“search”协议进行 1:N 人脸识别。
- 对于验证任务,报告真接受率(TAR)与假阳性率(FAR);对于识别任务,报告真阳性识别率(TPIR)与假阳性识别率(FPIR)以及 Rank - N 准确率。
- 实验结果
| 方法 | 1:1 验证 TAR(FAR = 0.001) | 1:1 验证 T
超级会员免费看
订阅专栏 解锁全文
654

被折叠的 条评论
为什么被折叠?



