不平衡数据的处理

最新推荐文章于 2025-01-13 21:34:25 发布

原创

最新推荐文章于 2025-01-13 21:34:25 发布 · 1.9k 阅读

11 ·

CC 4.0 BY-SA版权

本文探讨了不平衡数据的定义，不处理时对模型性能的影响，包括混淆矩阵、AUC值和ROC曲线的解释。同时介绍了处理不平衡数据的常用方法——SMOTE算法及其步骤。不平衡数据会导致准确率过高但模型性能不佳，使用AUC评估更为合适。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

不平衡数据的处理

1. 何为不平衡数据？
2. 不平衡数据不经过处理，直接建模会产生什么影响？
3. 处理不平衡数据的常用方法
- 3.1 smote算法
- - 1. 算法步骤

参考博文数据不平衡与smote算法
 smote算法，python实现

我当时看到这个问题，首先思考：何为不平衡数据？不平衡数据是如何产生的？

1. 何为不平衡数据？

可通过一些具体例子来理解

例如在信贷评估中，违约的是少数、医学影响的癌细胞识别中，癌细胞是少数、公用事业欺诈检测，欺诈的是少数等

2. 不平衡数据不经过处理，直接建模会产生什么影响？

为了解决这个问题，我们首先要了解混淆矩阵，AUC值和ROC曲线

2.1 混淆矩阵

混淆矩阵也称为误差矩阵，是表示精度评估的一种标准格式，用n行n列的矩阵形式表示。具体评估指标有准确率、精确率和召回率等。在人工智能领域，混淆矩阵作为一种可视化工具被广泛使用

TP(True Positive): 真实为0，预测也为0
FN(False Negative): 真实为0，预测为1
FP(False Positive): 真实为1，预测为0
TN(True Negative): 真实为0，预测也为0

举个例子，直观了解一下
假设我们有一个两类分类问题：根据照片内判断男女，以下是一个包含10个记录的测试数据集，包含标签分类和模型的预测结果

标签分类	预测结果
男	女
男	男
女	女
男	男
女	男
女	女
女	女
男	男
男	女
女	女

设1-男，0-女，则混淆矩阵如下：

真实情况	预测结果
真实情况	1	0
1	3（TP）	2（FN）
0	1（FP）	4（TN）

1. 准确率（Accuracy）

（1）什么是准确率？

所有预测正确的样本占所有样本的比例

（2）计算公式

$=\frac{TP+TN}{TP+TN+FP+FN}$
在例子中， $\frac{7}{10}$

2. 精确率（Precision）

（1）什么是精确率？

预测结果为正例的样本中真实为正例的比例

（2）计算公式

$\frac{TP}{TP+FP}$

在例子中， $Precision=\frac{3}{4}$

最低0.47元/天解锁文章

200万优质内容无限畅学

标签分类	预测结果
男	女
男	男
女	女
男	男
女	男
女	女
女	女
男	男
男	女
女	女

标签分类	预测结果
男	女
男	男
女	女
男	男
女	男
女	女
女	女
男	男
男	女
女	女

不平衡数据的处理

不平衡数据的处理

1. 何为不平衡数据？

2. 不平衡数据不经过处理，直接建模会产生什么影响？

2.1 混淆矩阵

1. 准确率（Accuracy）

（1）什么是准确率？

（2）计算公式

2. 精确率 （Precision）

（1）什么是精确率？

（2）计算公式

2. 精确率（Precision）

标签分类	预测结果
男	女
男	男
女	女
男	男
女	男
女	女
女	女
男	男
男	女
女	女