机器学习——支持向量机

SVM的特点

  1. 非线性映射是SVM方法的理论基础,SVM利用内积核函数代替向高维空间的非线性映射;
  2. 对特征空间划分的最优超平面是SVM的目标,最大化分类边际的思想是SVM方法的核心;
  3. 支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量;
  4. SVM 是一种有坚实理论基础的新颖的小样本学习方法。

SVM优缺点

  1. 优点:范化错误率低,计算开销不大,结果易解释
  2. 缺点:对参数调节和核函数的选择敏感,原始分类器不加修改仅适用二分类问题
  3. 适用数据类型:数值型和标称型数据

分隔超平面

将n维线性可分数据分隔开来的n-1对象即为–分隔超平面–,此超平面就是分类的决策边界。分布在超平面一侧的
所有数据都属于某个类别,而分布在另一侧的所有数据则属于另一个类别。

因此,我们希望找到离分隔超平面最近的点,确保它们离分隔面的距离尽可能远。我们希望这个间隔尽可能的大,
这是因为如果我们犯错或者在有限数据上训练分类器的话,希望分类器尽可能的建壮。

支持向量

支持向量就是离分隔超平面最近的那些点。要做的就是找到最大化支持向量到分隔面的距离。

寻找最大间隔

分隔超平面的形式可以写成 W T + b W^T + b WT+b。计算点A到分隔超平面的距离就是计算点到分隔面的法线或垂线的长度,该值为 ∣ W T + b ∣ / ∣ ∣ W ∣ ∣ |W^T +b| / ||W|| ∣WT+b∣/∣∣W∣∣

我们用课堂上的例子来体会一下上面的概念:

KTT条件

最优化问题可以根据目标函数和约束条件的类型进行分类:

  • 如果目标函数和约束条件都为变量的线性函数,称为最优化问题为线性规划;
  • 如果目标函数为变量的二次函数,约束条件为线性函数,称为二次规划;
  • 如果目标函数或者约束条件为变量的非线性函数,称改最优化问题为非线性规划

利用SVM算法进行分类其实就是在受限条件下求最优解,而实际应用当中,我们遇到的待分类数据会有非线性规划问题,这时我们就可以用到KTT条件。

KKT条件是指在满足一些有规则的条件下,一个非线性规划问题能有最优化的一个必要和充分条件。

其中是两种情况:一种全局最优阴影部分内;一种是不在阴影部分内,但是可以通过缩放f(x)来实现最优解外切受限条件 。

下面是利用拉格朗日乘法求解的过程

以上过程,是把原本对w、b参数的求解都转换成了对ai的求解。

对于少量的样本数据,我们可以对全部ai进行求解,但是对于大样本数据集,其中的计算量过于庞大,另外对于噪声点的干扰也是难以控制的。有问题就会有解决——SMO。

SMO

SMO表示序列最小优化(Sequential Minimal Optimization),目标是求出一系列的alpha和b,一旦求出了这些alpha,就很容易计算出权重向量w并得到分隔超平面。

SMO算法的工作原理是:每次循环中选择两个alpha进行优化处理。一旦找到一对合适的alpha,那么就增大其中一个同时减小另一个。这里所谓的“合适”就是指两个alpha必须
要符合一定的条件,条件之一就是这两个alpha必须要在间隔边界之外,而其第二个条件则是这两个alpha还没有进行过区间化处理或者不在边界上。

简化版SMO算法处理小规模数据集

# -*- coding: utf-8 -*-
"""
Created on Wed Nov 28 14:40:14 2018

@author: Alex
"""
import numpy as np
#SMO算法中的辅助函数
def loadDataSet(fileName): #G:\MLinAction\MLiA_SourceCode\machinelearninginaction\Ch06\testSet.txt
    dataMat = []
    labelMat = []
    fr = open(fileName)
    for line in fr.readlines():
        lineArr = line.strip().split('\t')
        dataMat.append([float(lineArr[0]), float(lineArr[1])])
        labelMat.append(float(lineArr[2]))
    return dataMat,labelMat

def selectJrand(i,m):
    j = i
    while (j==i):
        j = int(np.random.uniform(0,m))
    return j

def clipAlpha(aj, H, L):
    if aj > H:
        aj = H
    if L > aj:
        aj = L
    return aj

def smoSimple(dataMatIn, classLabels, C, toler, maxIter):
    dataMatrix = np.mat(dataMatIn)
    labelMat = np.mat(classLabels).transpose()
    b = 0
    m,n = np.shape(dataMatrix)
    alphas = np.mat(np.zeros((m,1)))
    iter = 0
    while (iter < maxIter):
        alphaPairsChanged = 0
        for i in range(m):
            #预测类别,w用alpha替代后的函数
            fXi = float(np.multiply(alphas,labelMat).T * (dataMatrix * dataMatrix[i,:].T)) + b
            Ei = fXi - float(labelMat[i])
            #满足KKT条件,alpha可以更改进入优化过程
            if ((labelMat[i] * Ei < -toler) and (alphas[i] < C)) or ((labelMat[i] * Ei > toler) and (alphas[i] > 0)):
                #选择一个和i不相同的待改变的alpha
                j = selectJrand(i, m)
                fXj = float(np.multiply(alphas, labelMat).T * (dataMatrix * dataMatrix[j, :].T)) + b
                Ej = fXj - float(labelMat[j])
                alphaIold = alphas[i].copy()
                alphaJold = alphas[j].copy()
                #更新alpha的上下限,保证alpha在0与C之间
                if (labelMat[i] != labelMat[j]):
                    L = max(0, alphas[j] - alphas[i])
                    H = min(C, C + alphas[j] - alphas[i])
                else:
                    L = max(0, alphas[j] + alphas[i] - C)
                    H = min(C, alphas[j] + alphas[i])
                #上下限一样结束循环
                if L == H:
                    print("L==H")
                    continue
                #计算eta值,eta为alphas[j]的最优修改量
     
### 关于头歌实践平台中支持向量机软间隔第五关任务详解 #### 任务背景 在机器学习领域,支持向量机(SVM)是一种强大的监督学习方法,用于分类和回归分析。其中,软间隔支持向量机(Soft Margin SVM)通过引入松弛变量解决了数据线性不可分的问题[^1]。相比于硬间隔支持向量机,它能够容忍一定范围内的误分类情况,从而提高模型的泛化能力。 #### 头歌实践平台的任务目标 根据引用内容,在头歌实践平台的支持向量机练习中,第五关的主要任务可以总结如下: - **数据准备**:使用给定的数据集 `X1` 和标签 `Y`,分别提取前600条记录作为训练集,后90条记录作为测试集。 - **模型构建**:利用 `scikit-learn` 库中的 `SVC` 类实现支持向量机模型,并指定核函数为径向基函数(RBF Kernel)。该核函数适合处理非线性可分的情况。 - **性能评估**:计算并输出模型在训练集上的准确率以及测试集上的预测准确率。 以下是完成此任务的具体代码实现: ```python import numpy as np from sklearn.svm import SVC def return_values(): # 加载预处理后的数据集 X1 = np.load('X1.npy') # 特征矩阵 (690 * 15) Y = np.load('Y.npy') # 标签向量 (长度为690) # 划分训练集和测试集 x_train = X1[:600, :] # 前600条记录作为训练集 y_train = Y[:600] x_test = X1[600:, :] # 后90条记录作为测试集 y_test = Y[600:] # 构建支持向量机模型 clf = SVC(kernel='rbf', C=1.0, gamma='scale') clf.fit(x_train, y_train) # 计算模型准确率 train_accuracy = clf.score(x_train, y_train) # 训练集准确率 test_accuracy = clf.score(x_test, y_test) # 测试集准确率 return train_accuracy, test_accuracy ``` #### 参数解释 - **kernel**: 设置核函数类型,此处采用 `'rbf'` 表示径向基函数[^3]。 - **C**: 控制软间隔惩罚项的权重参数。较大的 `C` 值意味着更严格的边界约束,而较小的值则允许更多的误分类以换取更好的泛化效果[^1]。 - **gamma**: RBF核函数的一个重要超参数,决定了单个样本的影响范围大小。默认值 `'scale'` 自动调整为 \( \frac{1}{n_{\text{features}} \cdot \sigma^2} \)[^3]。 #### 结果解读 执行上述代码后会得到两个指标: - **train_accuracy**: 反映模型对已知训练数据的学习程度; - **test_accuracy**: 展现模型对未来未知数据的预测能力。 如果发现两者差距较大,则可能存在过拟合现象;反之,若两者的值均较低,则可能欠拟合。此时可以通过调节 `C`, `gamma` 或更换其他类型的核函数进一步优化模型表现。 --- ####
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值