SVM 解决类别不平衡问题(scikit_learn)

本文介绍如何使用支持向量机(SVM)解决类别不平衡问题,通过调整惩罚参数C的权重来增强少数类别的影响,确保其分类准确性。并提供了一个使用scikit-learn的示例代码。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在支持向量机中, C C 是负责惩罚错误分类数据的超参数。

解决数据类别不平衡的一个方法就是使用基于类别增加权重的C

Cj=Cwj C j = C ∗ w j

其中, C C 是误分类的惩罚项,wj是与类别 j j 的出现频率成反比的权重参数,Cj 就是类别 j j 对应的 加权C

主要思路就是增大误分类 少数类别 带来的影响,保证 少数类别 的分类正确性,避免被多数类别掩盖

在scikit-learn 中,使用 svc 方法时,可以通过设置参数

class_weight=’balanced’

实现上述加权功能

参数‘balanced’ 会自动按照以下公式计算权值:

wj=nknj w j = n k n j

其中, wj w j 为类别 j j 对应权值,n 为数据总数, k k 为类别数量,即数据有k 个种类, nj n j 是类别 j j 的数据个数

0.导入库

# Load libraries
from sklearn.svm import SVC
from sklearn import datasets
from sklearn.preprocessing import StandardScaler
import numpy as np

1、加载Iris Flower 数据集

#只加载两个类别的数据,两类,各50个
iris = datasets.load_iris()
X = iris.data[:100,:]
y = iris.target[:100]

2.不均衡化数据集

# 删掉前四十个数据,数据总数变为60个
X = X[40:,:]
y = y[40:]

# 类别为0的类别不变,类别不为0的全部变为1
y = np.where((y == 0), 0, 1)
y
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

可以看到,有60个数据,10个为类别0,50个为类别1

3.特征标准化

# Standarize features
scaler = StandardScaler()
X_std = scaler.fit_transform(X)

4.使用加权类别训练SVM分类器

# Create support vector classifier
svc = SVC(kernel='linear', class_weight='balanced', C=1.0, random_state=0)

# Train classifier
model = svc.fit(X_std, y)

翻译自Chris Albon 博客
原文地址

在 Python 中,`scikit-learn` 是一个功能强大的机器学习库,主要用于数据挖掘、数据分析以及构建机器学习模型。如果你希望导入并开始使用 `scikit-learn`,可以按照以下步骤操作: --- ### 1. **安装 scikit-learn** 首先需要确保已经安装了 `scikit-learn` 库。如果没有安装,可以通过 `pip` 来完成安装: ```bash pip install scikit-learn ``` 如果需要特定版本的 `scikit-learn`,可以在命令中指定版本号,例如: ```bash pip install scikit-learn==1.2.0 ``` 对于 Anaconda 环境用户,可以直接通过 conda 安装: ```bash conda install scikit-learn ``` --- ### 2. **导入 scikit-learn** 成功安装之后,在 Python 脚本或交互式环境中可以按需求导入所需的模块。常用的方式包括: #### 导入整个库 ```python import sklearn print(sklearn.__version__) # 输出当前版本号以验证安装是否正确 ``` #### 导入具体的模块或函数 一般情况下需要直接引用整个库,而是根据实际任务引入具体的功能模块。比如: - 数据集加载: ```python from sklearn.datasets import load_iris iris = load_iris() print(iris.data.shape) ``` - 划分训练集与测试集: ```python from sklearn.model_selection import train_test_split X_train, X_test, y_train, y_test = train_test_split( iris.data, iris.target, test_size=0.2, random_state=42 ) ``` - 使用分类算法(如支持向量机): ```python from sklearn.svm import SVC model = SVC(kernel='linear') model.fit(X_train, y_train) accuracy = model.score(X_test, y_test) print(f"Accuracy: {accuracy:.2f}") ``` --- ### 3. **注意事项** - 在运行前务必保证 NumPy 和 SciPy 已经正确定义好,因为它们构成了 Scikit-Learn 的底层计算基础。 - 如果遇到错误提示找到某个组件,请重新审查安装过程,并确认所有依赖项均已满足。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值