机器学习中的监督学习与回归模型
在现实世界中,数据集很少是整齐有序的。通常,我们面对的数据集更像图 1 - 9 中的那样,在图的左侧,很难找到一条直线来关联 x 和 y 值;在右侧,也难以清晰地划分不同的类别。因此,我们的目标是构建尽可能好的模型,这意味着要选择能产生最准确模型的学习算法。
常见的监督学习算法
有许多监督学习算法,例如线性回归、随机森林、梯度提升机(GBMs)和支持向量机(SVMs)等。其中很多算法(但并非全部)可用于回归和分类任务。即使是经验丰富的数据科学家,也常常需要通过实验来确定哪种学习算法能产生最准确的模型。
k - 近邻算法
k - 近邻算法是最简单的监督学习算法之一。其基本原理是:给定一组数据点,通过检查新数据点的最近邻点来预测该点的标签。
对于简单的回归问题,每个数据点由 x 和 y 坐标表示。给定一个 x 值,通过找到 x 坐标最接近该值的 n 个点,并对它们的 y 坐标求平均值,从而预测对应的 y 值。
对于分类问题,找到距离待预测类别点最近的 n 个点,然后选择出现次数最多的类别作为预测结果。例如,当 n = 5 时,如果五个最近邻点中有三个三角形和两个椭圆形,那么预测结果就是三角形。
下面是一个回归问题的示例:假设我们有 20 个数据点,描述了程序员的工作经验年限与年收入之间的关系。我们的目标是预测有 10 年工作经验的程序员的年收入。
当使用 k - 近邻算法,n = 10 时,找到 x 坐标最接近 10 的 10 个点,它们的 y 坐标平均值为 94,838。因此,该算法预测有 10 年工作经验的程序员年收入为 94,838 美元。 <
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



