1.数据预处理
1.1结构化数据
1.1.1缺失值处理
1.1.1.1直接删除
如果数据不重要且缺失值不多
1.1.1.2补齐
如果数据重要且缺失值不多,想办法搞来
1.1.1.3统计值填充
统计值一般泛指平均值、中位数、众数、最大值、最小值等,具体使用哪一种统计值要根据具体问题具体分析。
比如,填工龄,对年龄分箱求平均值填充
1.1.1.4不处理
缺失值自成一类
1.1.1.5向前向后填充
1.1.1.6插值法填充
1.多项式插值
2.lagrange插值
1.1.1.7预测值填充
1.1.2离群点处理
1.1.2.1标准差法
假设数据服从正态分布,3个标准差之外的数据为离群点,剔除
1.1.2.2MAD法
概念:又称为绝对值差中位数法,是一种先需计算所有因子与中位数之间的距离总和来检测离群值的方法,适用大样本数据
1.1.2.3箱型图法
1.1.3数据去量纲
1.1.3.1极差标准化
1.1.3.2极大值标准化
1.1.3.3标准差标准化(z-score)
1.1.3.4归一化——总和标准化
1.1.3.5非线性归一化
1.2非结构化数据
文本,机器学习方法需向量化可word2vec
深度学习训练embedding 层
图片音视频读矩阵进来
2.特征工程
2.1特征设计原理
新特征设计应与目标高度相关,要考虑的问题:
这个特征是否对目标有实际意义?
如果有用,这个特征重要性如何?
这个特征的信息是否在其他特征上体现过?
新构建特征验证其有效性要考虑的问题:
需要领域知识、直觉、行业经验以及数学知识综合性考量特征的有效性,防止胡乱构造没有意义的特征。
要反复与模型进行迭代验证其是否对模型有正向促进作用。
或者进行特征选择判定新构建特征的重要性来衡量其有效性。
2.2.特征构造常用方法
2.2.1统计值构造法
概念及工作原理
概念:指通过统计单个或者多个变量的统计值(max,min,count,mean)等而形成新的特征。
单变量:
如果某个特征与目标高度相关,那么可以根据具体的情况取这个特征的统计值作为新的特征。
多变量:
如果特征与特征之间存在交互影响时,那么可以聚合分组两个或多个变量之后,再以统计值构造出新的特征。
2.2.2连续数据离散化
1.等频分箱
2.等距分箱
2.聚类划分
2.2.3离散数据编码化
1.序列编码
2.独热编码
2.2.4函数变换
- 概念及工作原理
简单常用的函数变换法(一般针对于连续数据):
(1)平方(小数值—>大数值)
(2)开平方(大数值—>小数值)
(3)指数
(4)对数
(5)差分
2.2.5算术运算构造法
概念及工作原理
概念:根据实际情况需要,结合与目标相关性预期较高的情况下,由原始特征进行算数运算而形成新的特征。
解读概念为几种情况:
(1)原始单一特征进行算术运算:类似于无量纲那样处理,比如:X/max(X), X+10等
(2)特征之间进行算术运算:X(featureA)/X(featureB),X(featureA)-X(featureB)等
2.2.6.自由发挥
在特征构造这一块是没有什么明文规定的方法,特征构造更多的是结合实际情况,
有针对性的构造与目标高度相关的特征,只要构造的新特征能够解释模型和对模型具有
促进作用,都可以作为新指标新特征。
2.3特征选择概述
概念及工作原理
从哪些方面来选择特征呢?
当数据处理好之后,我们需要选择有意义的特征输入机器学习的模型进行训练,通常来说
要从两个方面考虑来选择特征,如下:
(1)特征是否发散
如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。
(2)特征与目标的相关性
这点比较显见,与目标相关性高的特征,应当优先选择。
区别:特征与特征之间相关性高的,应当优先去除掉其中一个特征,因为它们是替代品。
为什么要进行特征选择?
(1)减轻维数灾难问题 (2)降低学习任务的难度
处理高维数据的两大主流技术
特征选择和降维
特征选择有哪些方法呢?
(1)Filter 过滤法
(2)Wrapper 包装法
(3)Embedded 嵌入法
参考链接:https://www.kesci.com/home/project/5d86eced8499bc002c108cc8