【机器学习笔记】支持向量机 SVM 交叉验证 ROC

原创于 2023-09-21 22:51:00 发布 · 1.3k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #笔记 #支持向量机

本文介绍了支持向量机（SVM）的基本原理，包括如何在线性可分和线性不可分数据上工作，以及优化问题的转化。重点讲解了核函数的作用，展示了SVM的训练流程、测试流程，并讨论了内核函数的选择、交叉验证和ROC曲线在模型评估中的应用。

1. 支持向量机解决什么？

包含线性和非线性的模型，我们先在线性可分的数据样本集上找到一条分割不同样本集的线。然后再推广到线性不可分的数据样本集上
在这里插入图片描述

1.1 线性可分

上图我们可以看到线性可分可以找到一条线分割样本数据，但是这条线应该怎么找呢？
Vapnik(SVM发明者)提到

每一条线我们都可以计算一个性能指标：
将分割线平行的向左右移动，直到插到其中某一个（多个）样本点为止。而这两条线之前的距离就是这里说的性能指标，如图：

d 代表间隔（Margin）
两条平行线叉到的向量称为支持向量（Support Vectors），该算法做出来的分割线只跟支持向量有关！！！

性能指标最大的线，且该分割线在距离d的中心就是最优的分割线

那么求解这个最大化Margin即是一个优化问题(凸优化中的二次优化)，对于SVM的优化问题可以看成

最小化 $12∣∣w∣∣2\frac{1}{2}||w||^2$
限制条件 $yi[wTxi+b]≥1y_i[w^Tx_i + b] \geq 1$

二次优化的目标就相当于二次函数，而限制条件是一次项。是凸的，解的情况只可能无解或者有唯一解（不像非凸的有局部最值的情况）
凸函数定义：函数上任取两个点连成线，函数都应该在该条线的下方

看到这可能有读者就提出问题了，为什么最大化d能转变为最小化 $w⃗\vec w$ 的模长呢？下面来推导一下（看不懂记结论就好）：

根据上面的理论描述，线性可分的定义如下：
        假设我们的数据集( $x_i,y_i$ ) 其中 $\in (1,N)$ ，且是一个二分类问题，设定y的值仅为 1 或者 -1
         $∃(w⃗,b)使得对∀i∈(1,N)都有\exists (\vec w,b)使得对 \forall i \in (1,N) 都有$
                 $若yi=+1,则wTxi+b≥0若y_i = +1 ,则w^T x_i+ b \geq 0$
                 $若y_i = -1 ,则w^Tx_i + b < 0$
        上面两条公式可以抽象得出(同正负符号抵消了) $(1)y_i[w^Tx_i + b] \geq 0 \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$

首先需要了解如下两点

（ $w⃗\vec w$ ,b）与（a $w⃗\vec w$ ,ab）是在同一超平面的，即是我们可以用常数a来进行缩放
任意一个向量 $x_0$ 到超平面的距离可以表示如下 $\frac{|W^Tx_o + b|}{||w||} = \frac{|W^Tx_o + b|}{\sqrt{w_1^2 + w_2^2 + ... + w_n^2}}$

仔细看这个距离，通过缩放，我们完全可以找到一个（ $w⃗,b\vec w,b$ ）使得在支持向量 $x_0$ 上有 $w^Tx_0 + b| = 1$ 。此时上述距离就转变为 $\frac{1}{||w||}$
要使 $x_0$ 与超平面距离最大，即 $∣∣ w ∣∣$ 应该最小，优化问题第一点就是这么来的（前面的系数仅是为了求导方便，可以不加）
而另一条限制条件根据公式（1）结合线性可分的定义，我们知道除了支持向量，其他的向量应该有 $w^Tx_i + b| > 1$ ，整理合并就可以求得所有向量应该满足的条件，即是限制条件

1.2 线性不可分

通过线性可分得到的优化问题可以推广到线性不可分上即是

最小化 $12∣∣w∣∣2+C∑i=1Nξi\frac{1}{2}||w||^2 + C\sum^N_{i=1} \xi_i$
限制条件有两个分别是 $yi[wTψ(xi)+b]≥1−ξiy_i[w^T\psi(x_i) + b] \geq 1 - \xi_i$ 和 $ξi≥0\xi_i \geq 0$

其中C为超参（自己设定）， $ξi\xi_i$ 为松弛变量， $ψ(xi)\psi(x_i)$ 为高维映射，一般是无限维 （注意 $∀i∈(1,n)\forall i \in (1,n)$ ）。最小化式子中的后半项 $C∑i=1NξiC\sum_{i=1}^N \xi_i$ 即为正则项，防止过拟合

支持向量机与其他算法不同的点在于它不寻找其他函数来拟合分界线，而是升维！！提高原本向量的维度，在高维空间中寻找分界线。如下图一个简单的例子演示，借助变换函数升高维度
在这里插入图片描述

然而 $ψ(xi)\psi(x_i)$ 是无限维的，对应 $w^T$ 也是无限维的，这会使得问题边的很难解，这时候就要引出另外一个概念 — 核函数 （Kernel Function）：

我们无需知道 $ψ(xi)\psi(x_i)$ 的显示表示，而是提供一个核函数，使得 $K(x1,x2)=ψ(x1)Tψ(x2)K(x_1,x_2) = \psi(x_1)^T\psi(x_2)$ (两个无限维的向量内积，结果是一个数，此时上面的优化问题就可解了)

注意：K要可拆必需满足如下两条

$K(x_1,x_2) = K(x_2,x_1)~~~~~~$ 即是可交换
$∀ci,xi(i∈(1,N))\forall c_i , x_i (i \in (1,N))$ 有 $\sum^N_{i=1} \sum_{j=1}^Nc_ic_jK(x_i,x_j) \geq 0 ~~~~~~~~$ 半正定性

此时我们就可以将无限维的 $ψ(xi)\psi(x_i)$ 转化为核函数表示（通过原问题与对偶问题的转换，感兴趣的可以去听一听，这里就只写最终结论，图转自胡浩基老师的笔记）
在这里插入图片描述

2. 总结SVM算法

分为两步训练流程和测试流程

训练流程
输入{( $x_i,y_i$ )} 其中 $\in (1,N)$
解优化问题
$~~~~~~\theta(\alpha) = \sum^N_{i=1}\alpha_i - \frac{1}{2}\sum^N_{i=1}\sum^N_{j=1}\alpha_i\alpha_jy_iy_jK(x_i,x_j) \\ 限制条件：~~~ 0 \leq \alpha \leq c ~~~~~and ~~~~~\sum^N_{i=1}\alpha_iy_i = 0$ 此时只有 $α\alpha$ 是未知参数，任是一个凸优化问题，求解出来后可以求b，即是找一个 $0<αi<c0<\alpha_i<c$ 使得 $\frac{1- y_i\sum^N_{j=1}\alpha_jy_jK(x_i,x_j)}{y_i}$
测试流程
输入测试样本 $x$ ，如果 $则y=−1\sum^N_{i=1}\alpha_iy_iK(x_i,x) + b \geq 0 ~~, ~~ 则 y = +1 \\ \sum^N_{i=1}\alpha_iy_iK(x_i,x) + b < 0 ~~, ~~ 则 y = -1$

2.1 内核函数的选择

常见的有如下三种

Ploy – 多项式核： $K(x,y) = (x^Ty + 1)^d ~~~ 其中d为参数$
Rbf – 高斯径向基函数核： $e^{\frac{||x-y||^2}{\sigma^2}} ~~~~ 其中\sigma为参数~~~~~~$ 推荐👍
Tanh – Tanh核： $tanh(\beta x^Ty + b) ~~~~~ 其中 tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$

核函数里面的参数需要不断地去试，找到最好的

3. 交叉验证

一种验证数据集的方式

先分类：比如100,000个样本，我分成10类，每类10,000个样本点，此时N=10
每次从N中取出9类作为训练数据，剩下的一类作为测试数据。（此过程有N次，每次调用SVM训练）最终我们模型的测试结果就是 $∑i=1N测试识别率iN\frac{\sum^{N}_{i=1} 测试识别率_i}{N}$