从softmax到ArcFace

0. softmax
σ i ( z ) = e z i ∑ j = 1 m e z j \sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}} σi(z)=j=1mezjezi

其中, e x e^x ex的作用:

  • x x x取exp变为非负数,避免正负值抵消

  • 更容易达到终极目标one-hot形式,或者说,softmax降低了训练难度,使得多分类问题更容易收敛。 Softmax鼓励真实目标类别输出比其他类别要大,但并不要求大很多。 (参考链接: https://zhuanlan.zhihu.com/p/34404607 )

1. softmax loss
L 1 = − 1 m ∑ i = 1 m l o g e W y i T x i + b y i ∑ j = 1 n e W j T x i + b j L_1 = - \frac{1}{m}\sum_{i=1}^{m}log\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{\sum_{j=1}^{n} e^{W_j^Tx_i + b_j}} L1=m1i=1mlogj=1neWjTxi+bjeWyiTxi+byi

​ 其中,特征的维度 d d d为512, m m m是batch size; n n n是 class number; x i ∈ R d x_i\in \mathbb{R}^d xiRd表示第 i i i个输入样本,属于 y i y_i yi类;

W j ∈ R d W_j\in \mathbb{R}^{d} WjRd表示最后一层全连接层的权重 W ∈ R d × n W\in \mathbb{R}^{d\times n} WRd×n的第 j j j列, b ∈ R n b\in \mathbb{R}^n bRn是偏置项。

缺点: softmax loss 没有显式66的优化features,使其对正配对的相似度评分更高,负配对的相似度评分更低,从而导致性能不高。

2.权重归一化 A-Softmax loss

权重归一化做了两件事情(1) b j = 0 b_j=0 bj=0 (2) W j T x i = ∣ ∣ W j ∣ ∣   ∣ ∣ x i ∣ ∣   c o s θ j W_j^Tx_i=||W_j||\ ||x_i||\ cos\theta_j WjTxi=W

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值