数据挖掘第七周周报
数据挖掘阶段性归纳总结
由于时间关系,第一阶段的数据挖掘进入到了最后一周,由于进度问题,还没有具体深入,所以在该阶段的最后一周还是对基础知识做一定的总结归纳为主
天池数据挖掘比赛主要分为以下几个步骤
1.赛题理解
主要是对赛题的背景进行一定的了解,然后对数据概况有个基本的认知,以及对评价指标有大概的认识。其有助于对竞赛全局的把握。通过赛题理解有助于对赛题的业务逻辑把握,对于后期的特征工程构建和模型选择都尤为重要。
2.数据分析
- 数据总体了解:
- 读取数据集并了解数据集大小,原始特征维度;
- 通过info熟悉数据类型;
粗略查看数据集中各特征基本统计量;
- 缺失值和唯一值:
- 查看数据缺失值情况
- 查看唯一值特征情况
- 深入数据-查看数据类型
- 类别型数据
- 数值型数据
- 离散数值型数据
- 连续数值型数据
- 数据间相关关系
- 特征和特征之间关系
- 特征和目标变量之间关系
- 用pandas_profiling生成数据报告
3.特征工程
-
数据预处理:
- 缺失值的填充
- 时间格式处理
- 对象类型特征转换到数值
-
异常值处理:
- 基于3segama原则
- 基于箱型图
-
特征交互
- 特征和特征之间组合
- 特征和特征之间衍生
-
特征编码
- one-hot编码
- label-encode编码
-
特征选择
- Filter
4.建模和调参
-
逻辑回归模型
-
树模型
-
集成模型
- 基于bagging思想的集成模型
- 随机森林模型
- 基于boosting思想的集成模型
- XGBoost模型
- LightGBM模型
-
模型对比与性能评估:
- 回归模型/树模型/集成模型;
- 模型评估方法;
- 模型评价结果;
-
模型调参:
- 贪心调参方法;
- 网格调参方法;
- 贝叶斯调参方法;
5.模型融合
- 平均:
- 简单平均法
- 加权平均法
- 投票:
- 简单投票法
- 加权投票法
- 综合:
- 排序融合
- log融合
综上,要想数据挖掘有个好的结果,重点在于数据的处理,模型的选择与调参,最后是进行模型的融合得到更好的效果
最后还是采用之前的LGMB模型的基础上对数据进行预处理和调参,但是提升效果还是比较一般,只提升了0.0001个点,成绩如下