支持向量机回归估计详解
1. 引言
支持向量机(SVM)最初是为模式识别而开发的,它通过一小部分训练样本(支持向量)来表示决策边界。当支持向量算法被推广到回归估计时,即用于估计实值函数,保留这种稀疏性特征变得至关重要。为了实现这一目标,Vapnik提出了ε - 不敏感损失函数。
2. 线性回归与不敏感损失函数
在回归估计中,我们需要一个具有不敏感区域的损失函数,因此采用了ε - 不敏感损失函数:
[
\vert y - f(x) \vert_{\varepsilon} = \max{0, \vert y - f(x) \vert - \varepsilon }
]
这个损失函数不会对小于预先选定的 ε(ε > 0)的误差进行惩罚。在模式识别中,当一个模式位于决策面的正确一侧且不触及边界时,它对目标函数的损失贡献为零,同样在回归估计中,损失函数也需要有这样的不敏感区域。
基本的支持向量回归算法(ε - SVR)试图基于独立同分布(iid)的数据 ((x_1, y_1), \cdots, (x_m, y_m)) 来估计线性函数:
[
f(x) = \langle w, x \rangle + b
]
学习过程的目标是找到一个风险(或测试误差)较小的函数 f,即:
[
R[f] = \int c(f, x, y) dP(x, y)
]
但由于我们不知道概率测度 P,所以通过最小化正则化风险泛函来获得较小的风险:
[
\frac{1}{2} \vert\vert w \vert\vert^2 + C R_{emp}[f]
超级会员免费看
订阅专栏 解锁全文
1216

被折叠的 条评论
为什么被折叠?



