支持向量机(svm)--核函数

最新推荐文章于 2025-10-21 17:06:36 发布

原创最新推荐文章于 2025-10-21 17:06:36 发布 · 9.7k 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#svm #python #深度学习 #分类

本文详细阐述了核函数在机器学习中的作用，包括其封闭性、唯一性和高效计算性。重点介绍了RBF、多项式和线性核函数的表达式及应用，讨论了核函数的优缺点，并给出了选择核函数的建议。

一、核函数的基本概念和原理

核函数是一种计算两个输入向量之间相似度或内积的函数。在机器学习中，核函数通常用于映射输入数据到高维特征空间，使得非线性分类、回归和降维等任务得以解决。

核函数通常具有以下性质：

1.封闭性

核函数对于输入向量的计算是封闭的，即两个向量的内积等于它们在特征空间中的向量之积。

2.唯一性

不同的核函数会生成不同的特征空间，因此核函数的选择会影响机器学习算法的性能和结果。

3.计算高效性

核函数应该能够快速计算，以便在算法中有效地运用。

二、svm中核函数的应用

支持向量机（svm）是一种基于二分类的机器学习算法，它通过寻找一个超平面将输入向量划分为两个类别。

在支持向量机中，核函数用于计算输入向量之间的相似度或内积，从而在特征空间中表达数据之间的关系。通过选择不同的核函数，支持向量机可以适用于不同的数据类型和任务。例如，对于线性可分的数据，可以选择多项式核函数；对于非线性可分的数据，可以选择 RBF 核函数或 Sigmoid 核函数。

三、常用的核函数及其计算方法

1.径向基函数（RBF）

RBF 核函数是一种常见的核函数，又称高斯核函数。适用于处理高维数据和实现非线性映射。

RBF 核函数表达式

其中 $x_{i}$ 和 $x_{j}$ 是输入向量和中心向量，|| $x_{i}$ - $x_{j}$ || 表示它们之间的欧氏距离， $\gamma$ 是单调函数，当 $x_{i}$ 远离 $x_{j}$ 时函数取值很小。

对于数据点1转换到二维空间：
(1)找两个地标或者说两个数据点，将他们作为一个正态分布的均值。->比如-2和1
(2)计算数据到地标的距离：<1>-1+2=1<2>-1-1=-2
M条数据：每个都是mxn维
(3)指定y为0.3。[y必须大于0]
转换之后：每个都是mxm维
(4)计算新的坐标(exp(-0.3*1),exp(-0.3*(-2)))->(0.74,0.30)

2.多项式核函数

多项式核函数适用于处理低维数据，它通过将输入向量的坐标进行多项式展开来计算内积。

多项式核函数表达式

假如有两个数据，x1=(x1x2),x2=(y1y2),如果数据在二维空间无法线性可分，我们通过核函数将其从二维空间映射到更高的三维空间，那么此时：
f(x)=(x,√2x1x2,x)
更具体的例子：x1=(1,2),x2=(3,4)
(1) 转换到三维再内积（高维运算）
x1->(1,2v2,4)x2->(9,122,16)
<x1x2>=9+48+64=121
(2) 先内积，再平方（低维运算）
<x1x2>=3+8=11->112=121

3.线性核函数

线性核函数的特点是在高维空间中构造一个线性分类器，使得数据点在高维空间中被线性划分。

线性核函数表达式

其中，x和y是输入向量，使用线性核函数的优点是计算简单，不需要进行复杂的矩阵运算。但是，线性核函数只能处理线性可分的数据集，对于非线性数据集可能无法得到较好的分类效果。

四、核函数的优缺点及选择建议

核函数的选择对机器学习算法的性能和结果有着重要影响。不同的核函数具有不同的性质和适用场景，因此需要根据具体任务和数据特征来选择合适的核函数。下面我们分析一下核函数的优缺点，并提供一些选择建议。

优点：

能够在不显式地构建特征空间的情况下，隐式地表达数据之间的关系，从而提高算法的灵活性和效率。
能够处理高维数据和非线性映射，具有良好的泛化性能。

缺点：

可能会产生“过拟合”现象，即过度拟合训练数据，导致对测试数据的预测性能下降。
某些核函数可能存在参数调优困难的问题，需要仔细选择合适的参数以获得最佳性能。
对于某些复杂任务，可能需要选择多个核函数以获得更好的性能。

选择建议：

根据数据类型和特征选择合适的核函数。例如，对于高维数据和复杂结构，可以选择 RBF 核函数；对于低维数据和简单结构，可以选择多项式核函数。
根据任务类型选择合适的核函数。例如，对于分类任务可以选择支持向量机中常用的 RBF 核函数或多项式核函数；对于回归任务可以选择高斯过程回归中常用的 RBF 核函数或 Sigmoid 核函数。
对于不确定的情况，可以使用交叉验证等方法来评估不同核函数的性能，并选择最优的核函数。