【漫话机器学习系列】071.在支持向量机下，处理不平衡类别的问题（Handling Imbalanced Classes In Support Vector Machines）

最新推荐文章于 2025-12-06 09:33:20 发布

原创最新推荐文章于 2025-12-06 09:33:20 发布 · 1.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#支持向量机 #算法 #机器学习

漫话机器学习系列专辑专栏收录该内容

277 篇文章

订阅专栏

在支持向量机（SVM）模型中处理类别不平衡问题是一个常见的挑战。类别不平衡意味着数据集中某些类别的样本数量远远多于其他类别，从而导致模型偏向预测多数类，而忽略少数类的样本。这可能会严重影响模型的性能，特别是在关注少数类的应用场景（如欺诈检测或疾病诊断）中。

支持向量机处理不平衡类别的挑战

决策边界的偏移：SVM 的目标是找到最大化间隔的超平面，但在不平衡数据中，多数类样本对超平面的影响可能会压制少数类样本，导致决策边界向少数类一侧偏移。
分类器的偏向性：标准 SVM 可能会倾向于预测多数类，忽视少数类的样本，从而使得少数类的召回率较低。

解决不平衡类别问题的方法

以下是针对 SVM 处理不平衡类别问题的常用策略：

1. 调整类权重

原理：给少数类样本分配更高的权重，增加其在损失函数中的贡献，从而使 SVM 更关注少数类。
实现方式：
- 在 SVM 的优化目标中引入类权重参数，其中和分别为多数类和少数类的权重。
- 比如，使用 scikit-learn 的 SVC 模型时，可以通过设置 class_weight='balanced'，让模型根据类别比例自动调整权重。

代码示例：

from sklearn.svm import SVC
from sklearn.datasets import make_classification

# 生成不平衡数据集
X, y = make_classification(n_samples=1000, n_features=20,
                            n_classes=2, weights=[0.9, 0.1], random_state=42)

# 定义支持向量机模型，使用自动平衡类权重
model = SVC(class_weight='balanced')
model.fit(X, y)

2. 过采样（Oversampling）和欠采样（Undersampling）

过采样：增加少数类样本的数量，例如使用 SMOTE（Synthetic Minority Over-sampling Technique） 方法。
欠采样：减少多数类样本的数量，从而平衡数据集。

代码示例（使用 SMOTE）：

from imblearn.over_sampling import SMOTE
from sklearn.svm import SVC
from sklearn.datasets import make_classification
from sklearn.pipeline import make_pipeline

# 生成不平衡数据集
X, y = make_classification(n_samples=1000, n_features=20,
                            n_classes=2, weights=[0.9, 0.1], random_state=42)

# 过采样处理
smote = SMOTE(random_state=42)
model = make_pipeline(smote, SVC())
model.fit(X, y)

3. 调整决策阈值

原理：SVM 通过计算样本距离分类超平面的距离来进行预测。默认阈值为 0，但可以通过调整该阈值来提高少数类的召回率。
方法：
- 通过模型的 decision_function 或 predict_proba 方法获取样本的决策值或概率，根据不同的阈值重新进行分类。

代码示例：

from sklearn.metrics import classification_report
from sklearn.svm import SVC
from sklearn.datasets import make_classification

# 生成不平衡数据集
X, y = make_classification(n_samples=1000, n_features=20,
                            n_classes=2, weights=[0.9, 0.1], random_state=42)
# 训练模型
model = SVC(probability=True, class_weight='balanced')
model.fit(X, y)

# 调整阈值
y_scores = model.decision_function(X)
threshold = -0.5  # 调整决策阈值
y_pred = (y_scores > threshold).astype(int)

print(classification_report(y, y_pred))

运行结果

              precision    recall  f1-score   support

           0       1.00      0.91      0.95       897
           1       0.55      1.00      0.71       103

    accuracy                           0.92      1000
   macro avg       0.78      0.95      0.83      1000
weighted avg       0.95      0.92      0.93      1000

4. 采用不同的核函数