cross-entropy for one-stage detecor

最新推荐文章于 2025-02-16 09:25:34 发布

dadadaplz

最新推荐文章于 2025-02-16 09:25:34 发布

阅读量1.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：统计机器学习文章标签：机器学习

本文链接：https://blog.youkuaiyun.com/panglinzhuo/article/details/77131063

统计机器学习专栏收录该内容

10 篇文章

订阅专栏

本文介绍了一阶段检测器中使用的三种交叉熵损失函数：标准交叉熵、平衡交叉熵和焦点损失。详细讨论了它们如何解决正负样本不均衡及易分类样本主导损失函数的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cross-entropy for one-stage detecor

将讲述三种cross-entropy，分别为standard cross-entropy、 balanced cross-entropy、focal loss。

standard cross-entropy

standard cross-entropy认为各个训练样本的权重是一样的，若用p_t表示样本属于true class的概率，则：

standard_CE = -log(p_t)

下图中，蓝色曲线就表示standard_CE.可以看出，对于well-classified样本（预测正确率大于0.6），他们的loss仍然不小，对于yolo/ssd这类one-stage detector，负样本远远多于正样本，而负样本里面绝大多数又是easy example（即容易分类正确的样本）。因此，相比hard example（较难分类正确的样本），easy example的loss在整个代价函数中具有主导作用，从而使得one-stage detector难以对hard example分类正确。

balanced cross-entropy

由于one-stage detecor训练时正负样本数目相差较大，常见的做法就是给正负样本加上权重，给数量较少的正样本的loss更大的权重，减小负样本loss的权重。

balanced_CE = -α_t*log(p_t)
其中，α_t为样本loss的权重

focal loss

提出这种方法的作者【FAIR. ICCV2017 Oral Kaiming He & RBG】发现，one-stage detector的精度差的原因并不在于正负样本数量相差较大，而在于：
正负样本比例极度不平衡，以及损失函数（loss function）主要被easy negative example（容易分类正确的负样本）主导。
利用focal loss训练出的one-stage detector不仅能保持快速的优点，精确度也可以达到与two-stage detector一样的水平。

focal loss依照各个样本分类的分类难度来给定权重，如果某样本的分类正确率较大（easy example），则赋予较小的权重，相反，若某样本的分类难度较大（hard example），则赋予较大的权重。（类似adaboost：增大分类错误样本的采样概率，减小分类正确样本的采样概率）

FL=−(1−p_t)^γ * log(p_t)

由上式可以看出，预测正确率p_t越大，对应的loss越小。当γ=0时，即为standard cross-entropy。

实验发现γ=2时效果最好。当γ一定时，具有同样预测准确率p_t的 easy example，其 focal loss要比standard cross-entropy小100多倍，对于同样预测准确率p_t的hard example，其focal loss比standard cross-entropy最多小4倍，因此，hard example的权重就大大提高。