从FocalLoss到hardsample

最新推荐文章于 2024-05-23 19:22:58 发布

z0n1l2

最新推荐文章于 2024-05-23 19:22:58 发布

阅读量3.1k

点赞数 3

本文链接：https://blog.youkuaiyun.com/z0n1l2/article/details/80538918

版权

三省吾身专栏收录该内容

21 篇文章

订阅专栏

本文探讨了Focal Loss在处理深度学习正负样本不平衡问题中的应用，以及Hard Sample在SVM、Adaboost、神经网络中的角色。Focal Loss通过降低易分类样本的损失，强调难例样本的损失，提高训练效率。同时，文章还讨论了如何在SVM和Adaboost中利用Hard Sample提升模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Focal Loss

何凯明大神在2017年的论文中提出Focal loss 论文
Focal Loss是一种处理深度学习中正负样本不均衡的方法. 它并没有固定形式,应该算是一种思路: 降低non-hard-sample的loss, 提高hard-sample的loss. 以二分类cross entropy loss为例
$L(y,y_0) = -log(P_y)$
其中
$P_y = P \quad if\ y_0 = 1$
$P_y = 1-P \quad if\ y_0 = 0$
$y_0$ 是truth label, $P_y$ 是predicted probablity, $P_y \in [0,1]$
Focal Loss的一个实现是修改loss为如下形式
$L(y,y_0) = -(1-P_y)^2log(P_y)$
显然 $P_y$ 越接近1的样本,其分类效果越好,也说明这个样本属于non-hard-sample,观察下图,Focal loss压制了较大的 $P_y$ 对应的loss值,降低在反向传播过程中的作用
这里写图片描述

hard-sample

图像分类中,hard-sample就是对当前分类器难以区分的样本,"难以区分"包含两种情况

分类正确,但置信度不高
上面二分类的例子就属于这种情况
分类错误
adaboost中权重调教策略,更接近这种情况
显然训练中希望大部分都是hard-sample,避免在non-hard-sample上消耗资源,有助于提高训练效率

hard-sample 和 SVM

hard-negative-sample 对SVM训练十分关键, 前几轮训练出的SVM分类器效果都不会太好,需要反复几轮筛选hard-negative-sample,构成训练集中负样本,才有可能得到较好的分类器. 这里hard-sample通过人工筛选方式获得.

hard-sample 和 adaboost

adaboost通过修改训练样本权重(提高hard-sample权重,降低non-hard-sample权重)驱动分类器选择那些对hard-sample更加有效的弱分类器,构成强分类达到高准确度的目的. 下面是常用的一个样本权重更新公式
$w_1 = w_0 e^{-yf(x)}$
其中 $w_0$ 是当前样本 $x$ 权重, $w_1$ 是更新后的权重, $\in \{-1,1\}$ 是样本 $x$ 的truth label, $f (x)$ 当前分类器对 $x$ 的预测结果,最简单的实现中 $f (x)$ 是预测值和某个阈值的比较,大于阈值 $f (x) = 1$ ,否则 $f (x) = - 1 . 如果$ y $和$ f(x)$同号,则分类正确, $w_1< w_0$ ,否则 $w_1> w_0$ . adaboost中样本权重更新的思路和focus loss一致.