Python数据分析-数据挖掘(准备数据——数据建模——模型评估——模型应用)

20 理解业务和数据:我们需要做好什么计划?_哔哩哔哩_bilibili

目录

  一、理解业务和数据:我们需要做好什么计划?

1.1两个思想问题

1.2为什么数据挖掘不是万能的

1.3业务背景与目标

1.4把握数据 

1.5总结

二、 准备数据:如何处理出完整、干净的数据?

2.1找到数据

2.2数据探索

2.3数据清洗

2.3.1缺失值处理

2.3.2异常值的处理

2.3.3数据偏差

2.3.4数据标准化 

2.3.5特征选择

 2.4构建训练集和测试集

 三、 数据建模:该如何选择一个适合我需求的算法?

3.1分类问题  

3.2聚类问题

3.3回归问题

3.4关联问题 

3.5模型集成 

3.5.1(bagging)装袋法

3.5.2boosting增强法

3.5.3stacking堆叠法 

四、模型评估:如何确认我们的模型已经达标?

4.1一个关于“训练一个小猪图片分类模型”的例子

4.1.1评估指标:混淆矩阵与准确率指标

4.1.2评估指标:十分重要的业务抽取评估 

4.1.3泛化能力评估

4.1.4其他评估指标

4.1.5评估数据集的处理 

4.2总结

 五、 模型应用:我们的模型是否可以解决业务需求?

5.1模型部署

5.2模型保存

5.3模型的优化

5.4离线应用还是在线应用

5.5一个方案

5.6总结


  一、理解业务和数据:我们需要做好什么计划?

在开始数据挖掘的时候
要确保你对业务及其数据有充分的理解

1.1两个思想问题

1.2为什么数据挖掘不是万能的

数据挖掘只能在有限的资源与条件下去提供最大化的解决方案

 

1.3业务背景与目标

 

1.4把握数据 

 

 

1.5总结

二、 准备数据:如何处理出完整、干净的数据?

做好数据的准备工作是获得一个好结果的必由之路,准备数据不是独立存在的,不是说一次性做完数据准备工作就结束了。后面的模型训练和模型评估环节数据的准备相关,当模型出现错误,结果达不到预期,往往需要重新回到数据准备环节进行处理,反复迭代几次最终才能达到期望。

2.1找到数据

 

2.2数据探索

2.3数据清洗

2.3.1缺失值处理

 

2.3.2异常值的处理

 

2.3.3数据偏差

 

2.3.4数据标准化 

 

2.3.5特征选择

 

 2.4构建训练集和测试集

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大炮不想学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值