支持向量机:原理、优化与应用
1. 支持向量机概述
支持向量机是一种用于分类和回归的方法。当给定样本((x_1, y_1), \ldots, (x_N, y_N))时,它会在协变量的(p)维空间中绘制一个最优边界。其核心思想是最大化每个样本(x_i)到边界的最小距离。即使样本不能被一个表面完全分离,通过软化间隔的概念,也能将该方法进行推广。此外,使用非内积的通用核函数,即使边界不是一个表面,也能对问题进行数学建模并获得最优解。这里主要考虑两类情况。
2. 最优边界
对于两类分类规则,响应值(y_1, \ldots, y_N)取值为(\pm1)。为了从几何角度考虑协变量的位置,先来看点到直线的距离。
- 点到直线的距离 :在二维欧几里得空间中,点((x, y))到直线(l: aX + bY + c = 0)的距离为(\frac{|ax + by + c|}{\sqrt{a^2 + b^2}})。对于一般的(p)维情况,行向量(x = [x_1, \ldots, x_p])到表面(\beta_0 + \beta_1X_1 + \cdots + \beta_pX_p = 0)的距离为(d(x) := \frac{|\beta_0 + x_1\beta_1 + \cdots + x_p\beta_p|}{\sqrt{\beta_1^2 + \cdots + \beta_p^2}})。若将(\beta_0 \in R)和(\beta = [\beta_1, \ldots, \beta_p]^T \in R^p)的各项除以同一个常数,使得(|\beta| 2 = 1),则距离可写为(d(x) = |\beta_0 + x_1\be