简介
什么是特征工程?
数据决定了机器学习的上限,而算法只是尽可能逼近这个上限,这里的数据指的就是经过特征工程得到的数据。
特征工程包括:
- 特征变换 feature transformation
e.g 体检指标中的 BMI 指数就可以理解为身高、体重的特征变化,其表示结果效果更好
- 特征提取/构建 feature extraction /construction
特征提取就是从一组初始观测数据中提取出信息量高、冗余度低 的派生特征集合,从而促进后续学习和泛化的步骤,并增强模型可解释性。
- 特征选择 feature selection
特征选择通常包括去除无用变量、共线性变量等。
- 特征分析与评估 feature evalution
什么是自动化特征工程?
特征工程主要包括包括特征选择、特征预处理和特征压缩3个大模块,这些处理步骤中往往包含很多的方法,例如如何为数据选择适合的方法,如何通过数据构造新特征,这些问题都是传统特征工程所面临的困境,传统的特征工程效率低下,可移植性差,往往手工建立的特征只适合于特定的问题。因此自动化特征工程则是从数据中自动构建新的候选特征,并选择最佳的特征进行模型的训练,其意义在于可以超越传统特征工程中面