数据分析相关流程总结

1、观察数据集,分析数据

数据质量评估:

分类:计数?唯一值?

数值型:最大值、最小值、均值等

随机取样、切片分析

分析各个特征的分布

分析数据之间得相关性,以及因果关系

查看特征得重要性

观察样本分布是否均衡(样本不均衡需要进行采样:上采样、下采样)

df.info() ;df.describe() ;df.dtypes() ;df.groupby()

2、根据观察结果对数据进行预处理

缺失值(missingno)、异常值、重复值、错误值

类型转换: one-hot编码、tf-idf、word2vec

标准化、归一化处理、离散化

PCA、LDA降维

特征提取

3、确定模型评估标准

正确率、准确率、召回率、混淆矩阵等

4、数据划分:训练集、验证集、测试集

5、建模

6、模型优化:参数优化定义损失函数

7、确定模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值