回归问题的自动特征设计
在机器学习中,特征设计是解决回归和分类问题的关键环节。然而,在很多情况下,我们难以凭借对数据集的理解来设计出完美或高性能的特征。接下来,我们将探讨如何在不依赖人类知识(如数据可视化、哲学思考或领域专业知识)的情况下,自动为一般回归问题设计合适的特征。
理想回归场景下的自动特征设计
在理想但极不现实的情况下,我们能完全无噪声地获取回归现象的所有可能输入特征/输出对,即一个连续函数。在这种场景下,我们可以通过组合一组基本特征变换的元素,自动设计出完美的特征。
向量近似
在线性代数中,任何长度为 $P$ 且元素为实数的列向量 $y$(属于 $R^P$),都可以通过 $P$ 个线性无关向量构成的基来完美表示。即给定一组 $P$ 个线性无关的向量 ${x_p} {p = 1}^P$,我们可以将 $y$ 精确地表示为其元素的线性组合:
[
\sum {p = 1}^{P} x_p w_p = y
]
若我们只能访问完整基 ${x_p} {p = 1}^P$ 的一个子集 ${x_m} {m = 1}^M$($M \leq P$),虽然不能保证向量 $y$ 完全处于部分基 ${x_m} {m = 1}^M$ 的张成空间中,但仍可以通过其元素的线性组合来近似 $y$:
[
\sum {m = 1}^{M} x_m w_m \approx y
]
通过增大 $M$,可以使上述近似达到任意期望的容忍度。为了使部分基近似尽可能准确,我们可以通过求解相关的最小二乘问题来确定理想的权重集 ${w_
超级会员免费看
订阅专栏 解锁全文
5607

被折叠的 条评论
为什么被折叠?



