引言
- 该文只是简单为本人学习交叉熵损失函数以及focal loss等相关问题的一个补充,所以介绍的不够全面,待后续持续补充
一句话概括就是:
BCE用于“是不是”问题,例如LR输出概率,明天下雨or不下雨的概率;CE用于“是哪个”问题,比如多分类问题。
BCE与CE表达形式:
BCE:BCE+sigmoid
- sigmoid一般用于二分类问题,下方y^即为sigmoid形式(单个样本)
y ^ = 1 1 + e − Z (1.1) \hat{y} = \frac{1}{1+e^{-Z}}\tag{1.1} y^=1+e−Z1(1.1)
Z = w x (1.2) Z = wx\tag{1.2}

本文简要介绍了交叉熵损失函数(BCE和CE)在分类问题中的应用,包括二分类和多分类场景。BCE适用于二分类,如 LR 模型预测概率;CE则用于多分类,常与 softmax 激活函数结合。同时,文章探讨了 BCE 和 CE 的梯度变化,并指出 BCE 考虑了正负样本损失,而 CE 在多分类中通过 softmax 已内含负类信息。文章还提及 BCE 和 CE 在优化上的微妙差异。
最低0.47元/天 解锁文章
1764

被折叠的 条评论
为什么被折叠?



