4、机器学习中的监督学习与回归模型

机器学习中的监督学习与回归模型

在现实世界中,数据集很少是整齐有序的。通常,我们面对的数据集更像图 1 - 9 中的那样,在图的左侧,很难找到一条直线来关联 x 和 y 值;在右侧,也难以清晰地划分不同的类别。因此,我们的目标是构建尽可能好的模型,这意味着要选择能产生最准确模型的学习算法。

常见的监督学习算法

有许多监督学习算法,例如线性回归、随机森林、梯度提升机(GBMs)和支持向量机(SVMs)等。其中很多算法(但并非全部)可用于回归和分类任务。即使是经验丰富的数据科学家,也常常需要通过实验来确定哪种学习算法能产生最准确的模型。

k - 近邻算法

k - 近邻算法是最简单的监督学习算法之一。其基本原理是:给定一组数据点,通过检查新数据点的最近邻点来预测该点的标签。

对于简单的回归问题,每个数据点由 x 和 y 坐标表示。给定一个 x 值,通过找到 x 坐标最接近该值的 n 个点,并对它们的 y 坐标求平均值,从而预测对应的 y 值。

对于分类问题,找到距离待预测类别点最近的 n 个点,然后选择出现次数最多的类别作为预测结果。例如,当 n = 5 时,如果五个最近邻点中有三个三角形和两个椭圆形,那么预测结果就是三角形。

下面是一个回归问题的示例:假设我们有 20 个数据点,描述了程序员的工作经验年限与年收入之间的关系。我们的目标是预测有 10 年工作经验的程序员的年收入。

当使用 k - 近邻算法,n = 10 时,找到 x 坐标最接近 10 的 10 个点,它们的 y 坐标平均值为 94,838。因此,该算法预测有 10 年工作经验的程序员年收入为 94,838 美元。 <

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值