对于机器学习项目的流程是

1、先抽象成数学问题,指的是我们可以获得什么样的数据,目标是一个分类还是回归,或者聚类的问题,如果都不是,划归为某类问题
2、获取数据 数据决定了机器学习的上限,而算法只是尽可能的逼近这个上限,要对数据的量级有一个评估,多少个样本,多少个特征,可以估算出对内存的消耗程度,判断训练过程中内存是否放得下,如果放不下,就考虑改进算法或者用降维的技巧,如果放不下,要考虑分布式
3、特征预处理与特征选择
特征预处理、数据清洗是很关键的一步,往往可以使算法的效率提高,归一化,离散化,因子化,缺失值处理,去除共线性,筛选出显著的特征,特征选择
4、训练模型与调优
5、模型诊断
是否是欠拟合或者是过拟合,常见的方法如交叉验证,绘制学习曲线,过拟合的基本思想是增加数据量,降低模型复杂度,欠拟合提高特征数量和质量,增加模型复杂度。
6、模型融合
7、上线运行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值