sklearn中的支持向量机SVM(下)#01

本文深入探讨了二分类SVC中参数C的重要性和作用,C作为惩罚项平衡了最大边际与分错样本数量的关系。软间隔允许不同类别样本成为支持向量,而C值大小决定了模型是追求更大边界还是更高的分类准确性。C值较大时,模型复杂度增加,训练时间延长;C值较小时,决策边界简化,训练准确度可能下降。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

二分类SVC的进阶

参数C的理解进阶

对于软间隔地数据来说,边际越大被分错的样本也就会越多,因此我们需要找出一个”最大边际“与”被分错的样 本数量“之间的平衡。因此,我们引入松弛系数 和松弛系数的系数C作为一个惩罚项,来惩罚我们对最大边际的追求。
软间隔让决定两条虚线超平面的支持向量可能是来自于同一个类别的样本点,而硬间 隔的时候两条虚线超平面必须是由来自两个不同类别的支持向量决定的。而C值会决定我们究竟是依赖红色点作为 支持向量(只追求最大边界),还是我们要依赖软间隔中,混杂在红色点中的紫色点来作为支持向量(追求最大边 界和判断正确的平衡)。如果C值设定比较大,那SVC可能会选择边际较小的,能够更好地分类所有训练点的决策 边界,不过模型的训练时间也会更长。如果C的设定值较小,那SVC会尽量最大化边界,尽量将掉落在决策边界另 一方的样本点预测正确,决策功能会更简单,但代价是训练的准确度,因为此时会有更多红色的点被分类错误。换 句话说,C在SVM中的影响就像正则化参数对逻辑回归的影响。
此时此刻,所有可能影响我们的超平面的样本可能都会被定义为支持向量,所以支持向量就不再是所有压在虚线超 平面上的点,而是所有可能影响我们的超平面的位置的那些混杂在彼此的类别中的点了。观察一下我们对不同数据 集分类时,支持向量都有哪些?软间隔如何影响了超平面和支持向量,就一目了然了。

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn import svm
from sklearn.datasets import make_circles, make_moons, make_blobs,make_classification

n_samples = 100

datasets = [
    make_moons(n_samples=n_samples, noise=0.2, random_state=0),
    make_circles(n_samples=n_samples, noise=0.2, factor=0.5, random_state=1),
    make_blobs(n_samples=n_samples, centers=2, random_state=5),
    make_classification(n_samples=n_samples,n_features = 2,n_informative=2,n_redundant=0, random_state=5)
]

Kernel = ["linear"]

#四个数据集分别是什么样子呢?
for X,Y in datasets:
    plt
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值