5、机器学习全流程:从基础概念到项目实践

机器学习全流程:从基础概念到项目实践

1. 训练数据欠拟合问题

欠拟合是过拟合的对立面,当模型过于简单,无法学习到数据的潜在结构时就会发生欠拟合。例如,用线性模型来预测生活满意度就容易出现欠拟合,因为现实情况比线性模型复杂得多,所以即使在训练样本上,其预测结果也必然不准确。

解决欠拟合问题的主要方法有:
- 选择更强大、参数更多的模型。
- 为学习算法提供更好的特征(特征工程)。
- 减少对模型的约束(例如降低正则化超参数)。

2. 机器学习整体概述

2.1 机器学习的定义

机器学习是让机器通过从数据中学习来提高在某些任务上的表现,而不是通过显式地编写规则。

2.2 机器学习系统的类型

有多种不同类型的机器学习系统,包括有监督和无监督、批量学习和在线学习、基于实例和基于模型的学习。

2.3 机器学习项目流程

在机器学习项目中,首先要收集数据组成训练集,然后将训练集输入到学习算法中。如果是基于模型的算法,它会调整一些参数,使模型适应训练集(即能在训练集上做出良好的预测),并希望它也能在新数据上做出良好的预测。如果是基于实例的算法,它会记住这些示例,并通过相似度度量将新实例与已学习的实例进行比较,从而对新实例进行泛化。

2.4 影响系统性能的因素

如果训练集太小,或者数据不具有代表性、有噪声或包含无关特征(垃圾进,垃圾出),系统的性能就不会好。此外,模型既不能太简单(否则会欠拟合),也不能太复杂(否则会过拟合)。

训练好模型后,不能仅仅“希望”它能在新数据上

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值