一、概念
不均衡指的是不同类别的样本量差异非常大。 样本类别分布不均衡主要出现在分类相关的建模问题上。 样本类别分布不均衡从数据规模上可以分为大数据分布不均衡和小数据分布不均衡两种。
- 大数据分布不均衡; 这种情况下整体数据规模大, 只是其中的小样本类的占比较少。 但是从每个特征的分布来看, 小样本也覆盖了大部分或全部的特征。 例如拥有1000万条记录的数据集中, 其中占比50万条的少数分类样本便于属于这种情况。
- 小数据分布不均衡; 这种情况下整体数据规模小, 并且占据少量样本比例的分类数量也少, 这会导致特征分布的严重不平衡。 例如拥有1000条数据样本的数据集中, 其中占有10条样本的分类, 其特征无论如何拟合也无法实现完整特征值的覆盖, 此时属于严重的数据样本分布不均衡。
- 样本分布不均衡将导致样本量少的分类所包含的特征过少, 并很难从中提取规律; 即使得到分类模型, 也容易产生过度依赖于有限的数据样本而导致过拟合的问题, 当模型应用到新的数据上时, 模型的准确性和健壮性将很差
二、产生样本不平衡的场景
- 异常检测场景。 大多数企业中的异常个案都是少量的, 比如恶意刷单、 黄牛订单、 信用卡欺诈、 电力窃电、 设备故障等, 这些数据样本所占的比例通常是整体样本中很少的一部分, 以信用卡欺诈为例, 刷实体信用卡的欺诈比例一般都在0.1%以内。
- 客户流失场景。 大型企业的流失客户相对于整体客户而言通常是少量的, 尤其对于具有垄断地位的行业巨擘, 例如电信、 石油、 网络运营商等更是如此。
- 罕见事件的分析。 罕见事件与异常检测类似, 都属于发生个案较少, 不同点在于异常检测通常都有预先定义好的