线性参数模型:从回归到分类的全面解析
1. 维度灾难与解决策略
在处理数据时,维度灾难是一个常见的问题。如果数据在某个输入区域有非平凡的行为,我们需要用“凸起”类型的函数在输入空间中相当密集地覆盖这个区域。例如,在一维输入空间中,我们可能使用16个基函数。但在二维空间中,若要达到相同的离散化水平,就需要$16^2 = 256$个基函数;在十维空间中,则需要$16^{10} \approx 10^{12}$个函数。拟合这样的线性参数模型(LPM)需要求解一个包含超过$10^{12}$个变量的线性系统,基函数数量随输入维度的爆炸式增长就是“维度灾难”。
以下是一些可能的解决办法:
- 使用宽泛的基函数 :使基函数非常宽泛,让每个基函数覆盖更多的高维空间。但这会导致拟合函数缺乏灵活性,因为它被限制为平滑的。
- 基于训练输入点放置基函数 :将基函数的中心放在训练输入点上,并在训练输入附近随机添加一些基函数。因为在进行预测时,我们很可能遇到接近训练点的新$x$,所以不需要在整个空间上进行精确预测。
- 使基函数位置自适应 :让基函数的位置具有适应性,允许它们在空间中移动以最小化误差。这种方法在神经网络模型中被使用。
- 重新参数化问题 :通过重新参数化来重新表达拟合LPM的问题。
2. 对偶表示与核函数
考虑一组训练数据,输入为$X = {x_n, n = 1, \ldots, N}$,对应的输出为$y_n, n = 1, \ldots, N$。对于形式为$f(x) = w^T x$的L
超级会员免费看
订阅专栏 解锁全文

1372

被折叠的 条评论
为什么被折叠?



