3特征工程
数据清洗
目的:提高数据的质量,降低算法用错误的数据建模型风险
1,特征变换:模型无法处理或不适合处理
定性变量编码:Label Encoder; Onehot Encoder; Distribution Encoder;
标准化和归一化: 分数标准化(标准正态分布),min-max归一化
- 缺失值处理:增加不确定性,可能会导致不可靠的输出
不处理:少来那个样本缺失
删除:大量样本缺失
补全:(同类)均值、中位数,众位数补全,高维映射(One-hot);模型预测;最近邻补全;矩阵补全(R-SVD)
3. 异常值处理:减少脏数据
简单统计:如describe的统计描述,散点图等
箱型图删除、截断
利用模型机型离群点检测:聚类,K近邻、One Class SVM lsolation Forest
4. 其他:删除无效列、更改dtyoe、删除列中的字符串、将时间戳从字符串转为日期时间格式等
3.2特征构造
目的:增强数据表达,添加先验知识
- 统计量特征: 计数、求和、比例、标准差
- 时间特征:绝对时间、相对时间、节假日、双休日
- 地理信息:分桶
- 非线性变换:取log、平方、根号
- 数据分桶:等频、等距分桶、Best-KS分桶、卡方分桶
- 特征组合、特征交叉
特征选择
目的:平衡预测能力和计算复杂度,降低噪声、增强模型预测性能
- 过滤式:先用特征选择方法对初始特征进行过滤然后在进行学习器,特征选择过程与后续学习器无关,其方法有:Relief、方差选择、相关系数、卡方检验、互信息法
- 包裹式:直接阿静最终将要使用的学习器的性能作为衡量特征子集的评价准则,其目的在于为给定学习器选择最有利于其性能的特征子集。如:Las Vegas Wrapper(LVM)
- .嵌入式:结合过滤适合包裹式方法,将特征选择与学习器训练过程融为一体,两者在同一个优化过程中完成,即学习器训练过程中自动进行了特征选择。如:LR+L1决策树。
类别不平衡
解决方法:
- 扩充数据集
- 常识其他评价标准:AUC等
- 调整变量值
- 重采样:过采样、欠采样
- 合成样本:SMOTE
- 选择其他模型:决策树等
- 加权少类别的样本错分代价
- 创新:1,将大类分解成多个小类,2:将小类视为异常点,并采用异常检测建模。