ML笔记——支持向量机（SVM)_支持向量机中的m是什么参数-优快云博客

本文链接：https://blog.youkuaiyun.com/Fancy_Real/article/details/80512249

本文介绍了支持向量机（SVM）的基本思想和数学表达，探讨了SVM如何处理线性和非线性问题。通过对比逻辑回归，阐述了SVM在确保类别间隔最大化方面的优势，以及正则化的不同目的。文中还涉及核函数在SVM中的作用，解释了其将低维数据映射到高维空间以实现更好分类的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

想法

对于任意一个数据映射到多维空间，如果是不同的数据集之间必定存在间距，此时能用一个超平面就可以将其分开且间距最大

数学表达

处理线性问题
建设函数：
$h_\theta(x) = \left\{ \begin{array}{2} 1 & \Theta^TX \ge 0 \\ 0 & \Theta^TX < 0 \end{array} \right.$
代价函数：
$J(\theta) = C \sum^m_{i=1} \left [ y^i Cost_1(\Theta^T X^i) + (1-y^i)Cost_0(\Theta^T X^i) \right] + \frac{1}{2} \sum^n_{j=1} \theta^2_j$
其中的
$m$ 表示训练数据数量
$n$ 表示 $n$ 维空间
$\Theta$ 表示关于 $\theta$ 的 $n$ 维列向量
$Cost_1(\Theta^T X^i) = Cost_1(z)=\left\{ \begin{array}{2} -z+1 & z < 1 \\ 0 & z \ge 1\end{array} \right. \\$
$Cost_2(\Theta^T X^i) = Cost_2(z)=\left\{ \begin{array}{2} 0 & z \le -1 \\ z+1 & z > -1\end{array} \right.$
通过求解 $\min_\theta J(\theta)$ 得到合适的 $\theta$ 值
采用核函数处理非线性问题
$f = \theta_0+\theta_1 f_1+…+\theta_m f_m$
$f_j = k(x,\ l^j) = \exp \left(-\frac{\parallel x-l^j \parallel ^2}{2 \sigma^2} \right)$
其中的
$l^j$ 表示第 $j$ 个标记点，可以选取第 $j$ 个训练数据 $x^j$ 作为标记点
$x$ 表示某一组训练数据
$k(x,\ l^j)$ 表示训练数据 $x$ 到标记点 $l^j$ 的偏差程度
$\parallel x-l^j \parallel$ 表示向量的长度
对于第i组测试数据
$f^i_j=k(x^i,\ l^j) = \exp \left( - \frac{\parallel x^i- l^j \parallel ^2}{2 \sigma^2} \right)$
并将其写成向量形式，
$f^i=\left[\begin{array}{4} f^i_0 \\ f^i_1 \\ \vdots \\ f^i_m \end{array} \right]$
其中的
$f^i_0 = 1$
那么代价函数
$J(\theta) = C \sum^m_{i=1} \left[ y^i Cost_1(\Theta^T f^i)+(1-y^i)Cost_0(\Theta^T f^i) \right]+\frac{1}{2}\sum^m_{j=1}\theta^2_j$
通过求解 $\min_\theta J(\theta)$ 得到合适的 $\theta$

胡思乱想时刻

关于逻辑回归和支持向量机的区别
逻辑回归：使用Sigmoid函数的结果，以概率输出；同时，作为分类的依据就是与Sigmoid函数中的特殊点 $(0,\ 0.5)$ 做比较，也就是当 $y=1$ 时， $\Theta^T X \ge 0$ ；当 $y=0$ 时， $\Theta^T X < 0$ 。选取的 $\theta$ 值并没有考虑两个类群之间的间距
支持向量机：输出的结果只有 $0,\ 1$ 两个值；求解 $\theta$ 过程中选取的依据是，当 $y=1$ 时， $\Theta^T X \ge 1$ ；当 $y=0$ 时， $\Theta^T X \le -1$ 。也就是选取的 $\theta$ 值使得两个不同的类群有一定的距离（可以通过数学证明）
如何保证是最大划分？
对于假设函数
$\Theta^T X=\theta_0 x_0 + \theta_1 x_1 + … + \theta_n x_n=\vec \theta \cdot \vec x = p \cdot \parallel \theta \parallel \ \ge \ 0$
其中的
$p$ 表示向量 $\vec x$ 在向量 $\vec \theta$ 方向上的投影
$\theta_0=0$
由于 $\vec \theta \cdot \vec x$ 的结果与 $0$ 做比较，则向量 $\vec \theta$ 与向量 $\vec x$ 相互垂直，且向量 $\vec x$ 过原点
对于代价函数
$\frac{1}{2} \sum^n_{j=1} \theta^2_j=\frac{1}{2}\left (\sqrt{\theta^2_1+\theta^2_2+…+\theta^2_n} \right)^2=\frac{1}{2}\parallel\theta \parallel ^2$
则
$J(\theta)=C\sum^m_{i=1} \left[ y^iCost_1(p \cdot \parallel \theta \parallel)+(1-y^i)Cost_0(p \cdot \parallel \theta \parallel) \right] + \frac{1}{2} \parallel \theta \parallel ^2$
$\min_\theta J(\theta) = \min_\theta C\sum^m_{i=1} \left[ y^iCost_1(p \cdot \parallel \theta \parallel)+(1-y^i)Cost_0(p \cdot \parallel \theta \parallel) \right] + \min_\theta \frac{1}{2} \parallel \theta \parallel ^2$
如下图（紫色直线为决策边界）

此时的 $p_1,\ p_2$ 都较短，要想满足训练时 $\Theta^T X\ge 1$ 或 $\Theta^T X \le -1$ 的情况，则需要使 $\theta$ 较长，与 $\min_\theta \frac{1}{2} \parallel \theta \parallel ^2$ 矛盾
又如下图（紫色直线为决策边界）

此时的 $p_1,\ p_2$ 都较长，那么 $\theta$ 的值就可以略短一些
也就是当 $p$ 的值较大， $\theta$ 值较短时，能更好的满足 $\min_\theta J(\theta)$
再反观 $p$ 所表示的几何意义时，可以发现 $p$ 不仅仅是投影，还表示离决策边界的距离，所以通过对 $\min_\theta J(\theta)$ 的求解可以得到更宽松的决策边界
逻辑回归中的正则化与支持向量机中的正则化
正则化通常时引入一个较大的常数，并与式子中待控制的部分相乘，在求解最小值时，使得待控制的部分趋于 $0$
逻辑回归中的正则化是为了简化训练模型
支持向量机的正则化是为了在有一定区分度的情况下，使得 $\theta$ 值较小，从而获得更大的间距
核函数相关
核函数是一种将低维投到高维的一种方式，对于二维空间内无法用直线分割的数据集，可以通过将这些数据投到三维空间内用平面进行分割
如下图

选取 $xOy$ 平面中的 $(3, 2)$ 作为标记点并用高斯核函数，将平面上 $C$ 点投到三维空间中的 $B$
关于逻辑回归中不适合用核函数，可能是逻辑回归中的代价函数使用的是非线性函数（ $\log(h_\theta(x))$ ）将比 $Cost(\Theta^T X)$ 产生更大的计算量