1、观察数据集,分析数据
数据质量评估:
分类:计数?唯一值?
数值型:最大值、最小值、均值等
随机取样、切片分析
分析各个特征的分布
分析数据之间得相关性,以及因果关系
查看特征得重要性
观察样本分布是否均衡(样本不均衡需要进行采样:上采样、下采样)
df.info() ;df.describe() ;df.dtypes() ;df.groupby()
2、根据观察结果对数据进行预处理
缺失值(missingno)、异常值、重复值、错误值
类型转换: one-hot编码、tf-idf、word2vec
标准化、归一化处理、离散化
PCA、LDA降维
特征提取
3、确定模型评估标准
正确率、准确率、召回率、混淆矩阵等
4、数据划分:训练集、验证集、测试集
5、建模
6、模型优化:参数优化定义损失函数
7、确定模型
624

被折叠的 条评论
为什么被折叠?



