机器学习基础:k - NN与决策树方法解析
1. 过拟合问题概述
在实际预测中,若模型对训练数据过度适应,以至于在新数据上表现不佳,这种情况被称为过拟合。过拟合是机器学习中需要重点关注的问题,后续我们会结合具体模型深入探讨。
2. 基于距离的方法:k - NN
2.1 k - NN方法原理
k - 最近邻(k - NN)方法是一种相对简单的机器学习方法,可用于回归和分类任务。其基本思想基于这样的直觉:如果测试数据点 $x^{\star}$ 接近训练数据点 $x_i$,那么对 $x^{\star}$ 的预测 $\hat{y}(x^{\star})$ 应该接近 $y_i$。
具体步骤如下:
1. 计算测试输入 $x^{\star}$ 与所有训练输入 $x_i$ 之间的欧几里得距离 $|x_i - x^{\star}|_2$,其中 $i = 1, \cdots, n$。
2. 找到与 $x^{\star}$ 距离最短的数据点 $x_j$,并将其输出 $y_j$ 作为预测值,即 $\hat{y}(x^{\star}) = y_j$。这就是 1 - 最近邻方法。
然而,1 - 最近邻方法过于简单,在实际应用中,由于数据存在噪声,仅依赖一个训练数据点进行预测会导致结果不稳定且对噪声敏感。为了改进这一方法,我们可以使用 k 个最近邻点。具体来说,定义集合 $N^{\star} = {i : x_i$ 是距离 $x^{\star}$ 最近的 k 个训练数据点之一 $}$,并聚合这些点的输出信息进行预测。对于回归问题,取这些点输出的平均值;对于分类问题,采用多数表决法。
k - NN 方法的
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



