【论文笔记】FaceNet: A Unified Embedding for Face Recognition and Clustering

最新推荐文章于 2019-07-15 14:14:44 发布

原创最新推荐文章于 2019-07-15 14:14:44 发布 · 570 阅读

0 ·

CC 4.0 BY-SA版权

机器学习同时被 2 个专栏收录

32 篇文章

订阅专栏

论文笔记

12 篇文章

订阅专栏

本文介绍使用深度卷积网络嵌入技术的人脸识别方法FaceNet及其核心组件Triplet Loss。FaceNet通过将人脸图像映射到128维欧式空间来实现人脸识别与聚类。Triplet Loss旨在使同一人的不同图像尽可能接近，而与其他人图像保持一定距离。

FaceNet: A Unified Embedding for Face Recognition and Clustering
https://www.sentiance.com/2018/05/03/loc2vec-learning-location-embeddings-w-triplet-loss-networks/
本篇主要是用于人脸识别的“三重损失”——triplet，博客中的例子也用到三重损失，所以简单整理一下

本文将人脸“图片”以粗匹配组和不匹配组组成“三元组”样本，通过“深度卷积网络”嵌入到128维的欧式空间中，使人脸图片可欧式距离度量，实现人脸识别(KNN)、验证和聚类(K-means)任务。

通常人脸识别问题用CNN训练，PCA降维，SVM分类

这里写图片描述

triplet loss

三重损失的思想在于在嵌入空间中，使Anchor样本和Positive样本尽可能近、与Negative样本尽可能远，其中 $\alpha$ 是强制约束正负样本对之间的最小距离， $[]_+$ 表示max(0,value)

$x a i (a n c h o r); x p i (p o s i t i v e); x n i (n e g a t i v e)$ $x_i^a(anchor);x_i^p(positive);x_i^n(negative)$
$‖ f (x a i) - f (x p i) ‖ 22 + α < ‖ f (x a i) - f (x n i) ‖ 22$ $\|f(x_i^a)-f(x_i^p)\|_2^2+\alpha <\|f(x_i^a)-f(x_i^n)\|_2^2$
所以，损失即最小化
$L = \sum i N [‖ f (x a i) - f (x p i) ‖ 22 - ‖ f (x a i) - f (x n i) ‖ 22 + α] +$ $L=\sum_i^N [\|f(x_i^a)-f(x_i^p)\|_2^2 - \|f(x_i^a)-f(x_i^n)\|_2^2 +\alpha]_+$
本文中在每个mini-batch中采样了40张脸，并随机采样负样本
选择难区分的正负样本可以更快收敛，但也容易陷入局部最优，本文随机选择了较多的半难的样本
对于好判断的样本，损失为负，所以损失设置最小值为0，即[]+；对于难判断的样本，一般损失为正；对于略高于正样本的负样本，为了有效学习，添加间隔 $\alpha$ ，也是期望anchor和positive的距离要比anchor和negative距离多至少 $\alpha$ 间隔，则正负样本不会挨得很近。

(盗了个图)

本文中每个batch用了1800样本，AdaGrad，初始学习率0.05，随机初始化模型， $\alpha=0.2$

https://zhuanlan.zhihu.com/p/35560666
easy triplets(简单三元组): triplet对应的损失为0的三元组
$d (a, n) > d (a, p) + m a r g i n$ $d(a,n)>d(a,p)+margin$
hard triplets（困难三元组）: negative example 与anchor距离小于anchor与positive example的距离 $d (a, n) < d (a, p)$ $d(a,n)<d(a,p)$
semi-hard triplets（一般三元组）: negative example 与anchor距离大于anchor与positive example的距离，但还不至于使得loss为0，
$d (a, p) < d (a, n) < d (a, p) + m a r g i n$ $d(a,p)<d(a,n)<d(a,p)+margin$