0. softmax
σ i ( z ) = e z i ∑ j = 1 m e z j \sigma_i(z)=\frac{e^{z_i}}{\sum_{j=1}^{m}e^{z_j}} σi(z)=∑j=1mezjezi
其中, e x e^x ex的作用:
-
对 x x x取exp变为非负数,避免正负值抵消
-
更容易达到终极目标one-hot形式,或者说,softmax降低了训练难度,使得多分类问题更容易收敛。 Softmax鼓励真实目标类别输出比其他类别要大,但并不要求大很多。 (参考链接: https://zhuanlan.zhihu.com/p/34404607 )
1. softmax loss
L 1 = − 1 m ∑ i = 1 m l o g e W y i T x i + b y i ∑ j = 1 n e W j T x i + b j L_1 = - \frac{1}{m}\sum_{i=1}^{m}log\frac{e^{W^T_{y_i}x_i+b_{y_i}}}{\sum_{j=1}^{n} e^{W_j^Tx_i + b_j}} L1=−m1i=1∑mlog∑j=1neWjTxi+bjeWyiTxi+byi
其中,特征的维度 d d d为512, m m m是batch size; n n n是 class number; x i ∈ R d x_i\in \mathbb{R}^d xi∈Rd表示第 i i i个输入样本,属于 y i y_i yi类;
W j ∈ R d W_j\in \mathbb{R}^{d} Wj∈Rd表示最后一层全连接层的权重 W ∈ R d × n W\in \mathbb{R}^{d\times n} W∈Rd×n的第 j j j列, b ∈ R n b\in \mathbb{R}^n b∈Rn是偏置项。
缺点: softmax loss 没有显式66的优化features,使其对正配对的相似度评分更高,负配对的相似度评分更低,从而导致性能不高。
2.权重归一化 A-Softmax loss
权重归一化做了两件事情(1) b j = 0 b_j=0 bj=0 (2) W j T x i = ∣ ∣ W j ∣ ∣ ∣ ∣ x i ∣ ∣ c o s θ j W_j^Tx_i=||W_j||\ ||x_i||\ cos\theta_j WjTxi=∣∣W