机器学习中的回归与分类模型
1. 交叉验证与回归模型评估
在机器学习中,交叉验证是一种重要的技术。使用交叉验证时,可以将整个数据集用于模型训练,而非仅使用训练子集。这对于小数据集尤为重要,因为可以充分利用有限的数据。不过,若有专门预留的测试数据,用其对模型进行评分依然很有价值,毕竟只有让模型对未训练过的数据做出响应,才能真正了解其准确性。
一般而言,小数据集适合使用交叉验证,而大数据集则更适合采用训练/测试分割的方法。数据集越大,对数据分割方式的敏感度越低。
对于回归模型,评估其准确性常用的指标是决定系数(Coefficient of Determination),也称为R平方得分(R-squared score),简称为R²。R²通常取值在0到1之间(特殊情况下可能为负),它量化了输入变量能够解释的输出方差。例如,R²得分为0.8意味着模型在预测时平均约有80%的准确率,误差在20%以内。R²得分越高,模型越准确。此外,还有均方误差(Mean Squared Error, MSE)和平均绝对误差(Mean Absolute Error, MAE)等评估指标,但这些指标的意义依赖于输出值的范围,而R²是一个独立于范围的单一数值。
2. 使用回归模型预测出租车费用
2.1 问题背景
假设你在一家出租车公司工作,客户的一大抱怨是在行程结束前不知道费用是多少,因为距离并非决定费用的唯一因素。为解决这个问题,你打算开发一款移动应用,让客户上车时就能估算费用。为此,你将利用公司多年来收集的大量费用数据构建机器学习模型。
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



