【机器学习】03. SMOTE算法实现数据集单个不平衡的样本扩充

最新推荐文章于 2024-09-19 16:34:29 发布

原创

最新推荐文章于 2024-09-19 16:34:29 发布 · 735 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #算法 #人工智能

该文介绍如何使用SMOTE算法解决数据集类别不平衡问题，通过实例展示并比较了采样前后的数据分布，以图形形式呈现

背景：通常在处理分类问题中数据不平衡类别。使用SMOTE算法对其中的少数类别进行过采样，以使其与多数类别的样本数量相当或更接近。

直接上代码

from imblearn.over_sampling import SMOTE
from sklearn.datasets import make_classification
from collections import Counter
import matplotlib.pyplot as plt

# 创建一个不平衡的数据集
X, y = make_classification(n_classes=2, class_sep=2,
                           weights=[0.1, 0.9], n_informative=3, n_redundant=1,
                           flip_y=0, n_features=20, n_clusters_per_class=1,
                           n_samples=1000, random_state=10)

print('Original dataset shape %s' % Counter(y))

# 使用SMOTE算法平衡数据集
smote = SMOTE(random_state=42)
X_resampled, y_resampled = smote.fit_resample(X, y)

print('Resampled dataset shape %s' % Counter(y_resampled))

# 可视化原始数据集和平衡后的数据集
plt.figure(figsize=(16, 6))

plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1], c=y, marker='o', cmap='coolwarm', alpha=0.6)
plt.title('Original Dataset')

plt.subplot(1, 2, 2)
plt.scatter(X_resampled[: