9、机器学习建模与评估:从基础到实战

机器学习建模与评估:从基础到实战

回归:预测数值

在机器学习中,并非所有问题都与分类有关。有时,目标变量会呈现数值形式,例如在金融模型中预测美元价值。我们将预测数值的行为称为回归,而执行回归任务的模型则被称为回归器。

k - 近邻算法

k - 近邻算法是一种简单而强大的非线性机器学习方法。它常用于模型训练速度要求较快,但预测速度通常较慢的场景。其基本思想是通过将新数据记录与训练集中的相似记录进行比较来对其进行分类。如果数据集记录由一组数字 (n_i) 组成,可以通过常见的距离公式计算记录之间的距离:
[d = \sqrt{n_1^2 + n_2^2 + \cdots + n_n^2}]

在对新记录进行预测时,找到最接近的已知记录并将其类别分配给新记录,这就是 1 - 近邻分类器。通常会使用 3、5 或 9 个近邻,并选择近邻中最常见的类别(使用奇数是为了避免平局)。训练阶段相对较快,因为会对已知记录进行索引,以便快速计算与新数据的距离。而预测阶段则需要从整个数据集中找到最接近的近邻,这是主要的工作部分。

k - 近邻算法不仅适用于分类,也适用于回归。在回归中,不是取近邻中最常见的类别,而是取近邻目标值的平均值或中位数。

线性回归算法

线性回归是构建回归模型最简单且应用最广泛的算法之一。其主要优点是线性可扩展性和高度的可解释性。该算法将数据集记录绘制成点,目标变量位于 y 轴上,并拟合一条直线(如果有两个或更多特征,则拟合一个平面)到这些点上。

以汽车每加仑英里数(MPG)预测为例,使用 Auto MPG 数据集。目标是构建一个模型,根据汽车的各种属性(如马力、重量

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值