深度学习中的阈值策略:应对高度不平衡数据分类挑战
1. 引言
在深度学习的分类任务中,数据不平衡是一个常见且具有挑战性的问题。不平衡的数据分布可能导致模型在训练和预测时出现偏差,影响模型的性能。为了应对这一问题,研究人员提出了不同的阈值策略,以提高模型在不平衡数据上的分类效果。本文将探讨三种阈值策略:默认阈值(Default threshold)、最优阈值(Optimal threshold)和先验阈值(Prior threshold),并通过实验比较它们在不同不平衡程度数据上的性能。
2. 实验设置与数据准备
为了评估不同阈值策略的性能,使用了两个高度不平衡的医疗保险数据集(Medicare data sets)和ECBDL’14数据集。对于医疗保险数据集,分为Part B和Part D两部分,使用随机过采样(ROS)和随机欠采样(RUS)创建了18种不同的分布,涵盖了0.03% - 60%的类别不平衡水平。对于每种分布,训练了30个两层网络和30个四层网络,并在测试集上进行评分。对于ECBDL’14数据集,实验涵盖了0.5% - 90%的类别不平衡水平。
3. 阈值策略介绍
- 默认阈值(Default threshold) :通常设定为0.5,是一种简单直接的阈值策略。
- 最优阈值(Optimal threshold) :使用训练或验证数据来寻找最大化几何均值(G-Mean)性能指标的阈值。
- 先验阈值(Prior threshold) :使用训练分布中正类的先
深度学习阈值策略优化不平衡数据分类
超级会员免费看
订阅专栏 解锁全文
3844

被折叠的 条评论
为什么被折叠?



