Focal loss 全图
Focal loss 局部放大图
- 首先我觉得(个人猜测)一个样本的作用大小, 不是直接由它对应的loss决定的, 而是由这个样本对应loss对权值w的梯度决定的. 因为梯度越大, 则权值更新得越多(是朝着该样本loss减小的方向更新越多)
- 用one-hot做交叉熵loss的话, 样本 x i x^i xi(假设属于类别k)对应的loss: l o s s x k i = − l o g ( y k ( x i ) ) = 简 写 为 − l o g ( y k i ) loss_{x_k^i} = -log(y_k(x^i)) \overset{简写为}{=}-log(y_k^i) lossxk