不平衡分类中的数据特性与模型评估指标
一、不平衡分类中的数据特性
1.1 数据集大小的复合效应
数据集大小指的是从领域中收集的用于拟合和评估预测模型的示例数量。通常,数据越多越好,因为它能更好地覆盖领域,不过可能会达到收益递减的点。更多的数据能更好地表示特征空间中特征的组合和方差,以及它们与类别标签的映射关系,有助于模型学习和泛化类别边界。
但在不平衡分类中,若多数类与少数类的示例比例固定,随着数据集规模扩大,少数类的示例数量会增加。然而,数据收集往往困难且昂贵,我们通常收集到的数据远少于期望的量,这会严重影响获取足够或具有代表性的少数类示例样本的能力。
例如,在一个平衡的二分类任务中,有 10000 个示例时,每个类别会有 5000 个示例;而在比例为 1:100 的不平衡数据集中,同样数量的示例下,少数类只有 100 个示例。如果训练集不够大,分类器可能无法泛化数据特征,还可能过拟合训练数据,导致样本外测试实例的性能不佳。
以下是使用 scikit-learn 的 make_classification() 函数创建不同大小的不平衡二分类数据集的示例代码:
from collections import Counter
from sklearn.datasets import make_classification
from matplotlib import pyplot
from numpy import where
# 数据集大小
sizes = [100, 1000, 10000,
超级会员免费看
订阅专栏 解锁全文
4万+

被折叠的 条评论
为什么被折叠?



