零基础入门数据挖掘 - 二手车交易价格预测
赛题理解
拿到赛题之后,首先要看看赛题的类型,是回归,分类,其他?
同时,还要仔细读一下赛题背景,看看是不是已经说明存在数据漂移、异常值、缺失等现象,这样对我们的数据处理很有帮助。
数据理解
字段含义: 接下来开始看一下数据,通过看字段含义,可以知道存在明确的特征,和匿名特征。
对于明确的特征,我们能知道是分类变量,还是连续变量,这有助于我们进行变量间的交互,比如拼接变量。对于匿名特则,尝试进行四则运算,取log,和用统计指标猜测。
**数据量:**如果数据量过大,自己电脑带不起来。
评测标准: 回归常用标准:MAE,MSE,R2.要注意线下验证和线上的模型评价指标保持统一。不同的指标所注重的差异效果是不一样的。
结果提交: 注意列名和行名是否需要。
分析赛题
**经验:**常用模型:XGB,LGBM。sklearn重点掌握
步骤: EDA,特征工程,选模型跑数据
指标: 用sklearn.metrics
EDA
EDA要做什么:
- 数据大致表达了什么
- 挖掘数据结构(NLP,CV)
- 初步分离出一些重要特征
- 挖掘离群点和异常值
- 初步确定选择的模型
绘图方法:
- 时序图-变化规律
- 直方图-分布
- 密度曲线-分布
- 箱型图(查看数据异常情况,不同数据间分布的对比)
- 小提琴图(进阶版箱型图,某个值附近的概率分布)
量化方法:
相关性分析:
- 定类变量,性别
- 定序变量,教育程度
- 定距变量,价格
独立性分析:
- 变量间无线性相关,还可能存在非线性相关
- MV test