主要流程:
- EDA数据分析
- 数据清洗
- 特征工程
- 构建模型pipeline
- 训练模型
- 部署
EDA数据分析:看数据内的缺失状况,分割表(连续值和离散值)根据一些主要的col做一些scatter。大致确定一下特征内的关系,以及特征的重要度分析
数据清洗:
按row:关键特征None值多整条删除
按col:None值多删除,None值少补值(众数,平均数等,接近数)
特征工程:
将部分离散列合并,对离散值onehot编码,ip按照网段分开
构建模型pipeline:
拆分大文件,按比例分配测试集和训练集
补充内容:特征重要度分析,大文件的pipeline构建,基础的机器学习算法