问题: BCE loss 点击率预估场景中,BCE loss在正样本稀疏的场景下,负样本会产生梯度消失的问题(pointwise训练方式)。文本详细分析了在ctr任务中引入ranking loss为什么会产生正向影响。 BCE loss对负样本的梯度: 负样本的梯度近似于CTR预估值。无偏ctr的预估值近似等于点击样本占总体样本的比例,所以当正样本稀疏时,负样本会产生梯度消失问题。 所以,相反的,正样本的梯度会比较高: 方法: Ranking loss 当正向反馈稀疏时,正样本的估计值比0.5小很多,zi(+)小于0,所以负样本的梯度会被放大