focal loss for multi-class classification

最新推荐文章于 2023-11-03 15:39:05 发布

weixin_34241036

最新推荐文章于 2023-11-03 15:39:05 发布

阅读量144

点赞数

CC 4.0 BY-SA版权

原文链接：http://www.cnblogs.com/leebxo/p/10547091.html

本文围绕Focal loss展开，用于解决分类问题中数据类别不平衡等问题。作者记录了Focal loss在多分类上的实现过程，解读了二分类和多分类在loss上的区别，给出了多分类和二分类的交叉熵公式，还通过三分类例子模拟流程，最后给出Keras版本代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

转自：https://blog.youkuaiyun.com/Umi_you/article/details/80982190

Focal loss 出自何恺明团队Focal Loss for Dense Object Detection一文，用于解决分类问题中数据类别不平衡以及判别难易程度差别的问题。文章中因用于目标检测区分前景和背景的二分类问题，公式以二分类问题为例。项目需要，解决Focal loss在多分类上的实现，用此博客以记录过程中的疑惑、细节和个人理解，Keras实现代码链接放在最后。

框架：Keras（tensorflow后端）
环境：ubuntu16.04 python3.5

二分类和多分类

从初学开始就一直难以分清二分类和多分类在loss上的区别，虽然明白二分类其实是多分类的一个特殊情况，但在看Focal loss文章中的公式的时候还是不免头晕，之前不愿处理的细节如今不得不仔细从很基础的地方开始解读。

多分类Cross Entropy：
H(y,y′)=−∑y′ilogyi

二分类Cross Entropy：
H(y,y′)=−∑1i=0y′ilogyi=−(y′0∗logy0+y′1∗logy1)=−[y′0∗logy0+(1−y′0)∗log(1−y0)]

可以看出二分类问题的交叉熵其实是多分类扩展后的变形,在FocalLoss文章中，作者用一个分段函数代表二分类问题的CE(CrossEntropy)以及用pt的一个分段函数来代表二分类中标签值为1的 yi部分（此处的标签值为one-hot[0 1]或[1 0]中1所在的类别）：
这里写图片描述

文章图中的p（predict或probility？）等价于多分类Cross Entropy公式的y，也即经激活函数（多分类为softmax函数，二分类为sigmoid函数）后得到的概率，而文章中的y对应的是Cross Entropy中的y′，即label。

CE经分段函数pt作为自变量后可以转化为CE(p,y)=CE(pt)=−log(pt),实际上pt所代表的就是多分类CE中的y′i（标签值）为1对应的yi的值，只不过在二分类中y0和y1互斥（两者之和为1），所以可以用一个分段的变量pt来表示在i取不同值情况下的yi，我理解pt为当前样本的置信度，pt越大置信度越大，交叉熵越小。总结：多分类中每个样本的pt为one-hot中label为1的index对应预测结果pred的值,用代码表达就是max(ypred∗ylabel,axis=−1)