文章目录
什么是特征工程
- 特征工程(Feature Engineering)特征工程是将原始数据转化成更好的表达问题本质的特征的过程,使得将这些特征运用到预测模型中能提高对不可见数据的模型预测精度。
- 特征工程简单讲就是发现对因变量y有明显影响作用的特征,通常称自变量x为特征,特征工程的目的是发现重要特征。
- 如何能够分解和聚合原始数据,以更好的表达问题的本质?这是做特征工程的目的。 “feature engineering is manually designing what the input x’s should be.” “you have to turn your inputs into things the algorithm can understand.”
- 特征工程是数据挖掘模型开发中最耗时、最重要的一步。
在深度学习(DL)出现以前,特征工程对于机器学习(ML)至关重要。 深度学习可以自动提取特征(例如CNN用于提取图像特征),让特征提取变得简单,但是比较消耗数据和算力资源。而在传统机器学习中,需要手动提取特征,这也成为了机器学习的核心工作。
常见类型数据的特征工程
表格数据特征(Tabular Data Feature)
-
Inf/float:直接使用,或者将数据划分为n个区间。举例来说&#