2.4 Support Vector Machine 支持向量机
正如我们在核岭回归中所见,尽管 kernel trick 使我们免于显式处理很大甚至无穷大的 feature space dimensions,计算 Gram matrix 时,我们也得计算每对儿点的 k(xi,xj)k(x_i,x_j)k(xi,xj)。
如果我们有 NNN 个数据点,相当于每个预测/推断都有 N2N^2N2 个运算。NNN 很大时,很消耗成本。那么有没有用于计算大量数据的核方法呢?这就是 sparse kernel methods 稀疏核方法,一个例子就是核支持向量机。
2.4.1 线性支持向量机
- Linear (Affine) Functions and Hyperplanes 线性函数和超平面
-
线性函数:
f(x)=wx+b (One dimension) f(x)=wx+b\,\,(One \,\,\, dimension) f(x)=wx+b(Onedimension)f(x)=wTx+b (Higher dimensions) f(x)=w^Tx+b\,\,(Higher\,\,\,dimensions) f(x)=wTx+b(Higherdimensions)
-
超平面:线性方程的解
2维 →\to→ 一条线:w1x1+w2x2+b=0w_1x_1+w_2x_2+b=0w1x1+w2x2+b=0
通常情况 →\to→ $w^T+b=0 $
考虑一个二元分类数据集 D={ xi,yi}i=1N\mathcal{D}=\{x_i,y_i\}^N_{i=1}D={ xi,yi}i=1N,其中每个 xi∈Rdx_i\in \mathbb{R}^dxi∈Rd 且每个 yi=1y_i=1yi=1 (class +)或 yi=−1y_i=-1yi=−1 (class -)。对于二元分类问题的一个很重要的概念是 linear separability 线性可分性。
-
Definition 2.21: Linear Separability
我们说 D\mathcal{D}D 线性可分,当且仅当存在 w∈Rdw\in\mathbb{R}^dw∈Rd,使得
wTxi+b>0 if yi=+1 and wTxi+b<0 if yi=−1(2.55) w^Tx_i+b\gt0\,\,if\,\,y_i=+1\,\,and\,\,w^Tx_i+b\lt0\,\,if\,\,y_i=-1\tag{2.55} wTxi+b>0ify