数据挖掘的流程----自己认为是最规范的

本文详细介绍了数据挖掘的一般流程,包括从问题定义到模型上线的全过程,并强调了每个步骤的关键要点,尤其是特征工程的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据挖掘的目的是解决问题,不以解决问题的数据挖掘项目全是耍流氓,通过这一年半的工作经历,结合自己学习和工作中总结,特此呈现数据挖掘的一般流程


问题 -->数据-->特征工程-->模型训练和诊断-->模型效果离线评估-->模型效果线上评估(小流量测试)-->模型上线


1.问题:项目的成立的依据,比如给商户营销,推荐视频给用户等等。这个阶段要明确问题可以拆分的子问题,确定和数据挖掘工程的关联,是不是非得接入机器学习,其实一般简单的问题直接统计分析就ok了。

2.数据:明确了问题的基础上,就可以涉及数据问题了,比如建立数据库、数据仓库、数据集市等存储数据,数据的粗加工。

3.特征工程:根据项目的问题建立特征工程,给后面的模型提供靠谱的数据支持,数据决定了效果的上限,而模型不过是逼近这个上线而已。这一步特别重要

4。模型训练和诊断:如果特征工作做的好,这一步选择一个简单的模型,比如LR就可以达到很好的效果。常用的模型有LR,xgboost,RF,dnn等。这里比较重要的是模型诊断,就是判断我们的模型状态,是欠拟合、过拟合还是正好,如果是欠拟合,就增加特征的维度;如果是过拟合了就增加数据或者减少特征的维度或者加正则化项。好多人直接上正则化项,其实在欠拟合状态下,正则化项作用不大的。个人觉得模型训练的时候一定要判断自己的模型状态,判断方法有学习曲线,误差曲线

5.模型效果离线评估:就是看一下准确率和召回率以及roc,auc

6.模型效果线上评估(小流量测试):模型离线效果还可以,就可以上小流量测试了,测试方法使用ABTest

7.模型上线:如果模型效果线上评估(小流量测试)判定模型效果优于目前正在用的算法,就可以考虑使用该模型替换线上算法了


记住一点:数据挖掘是为了解决问题,都以解决问题为中心。其实上面的流程应该是网状的,中心点是“问题”。


终于写完了,个人感觉数据挖掘是一个很漫长、很枯燥的事情,付出和收获往往不成正比,没法和搞开发的同学比的。可能一个月、半年都在优化一个模型,而且优化效果不明显。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值