特征工程(Feature Engineering)
一、特征工程的相关知识点
特征工程的定义
将数据转换为能更好地表示潜在问题的特征,从而提高机器学习性能。
特征工程包含以下几个部分
-
- 数据理解;
目的:探索数据,了解数据,主要在EDA阶段完成。- 定性数据:描述性质
a) 定类: 按名称分类 —— 血型、城市
b) 定序: 有序分类 —— 成绩 - 定量数据:描述数量
a) 定距: 可以加减 —— 温度、日期
b) 定比: 可以乘除 —— 价格、重要
- 定性数据:描述性质
- 数据理解;
-
- 数据清洗;(最重要的)
目的: 提高数据质量,降低算法用错误数据建模的风险。- 特征变换: 模型无法处理或不合适处理
a) 定性变量编码: Label Encoder; Onehot Encoder; Destribution coding;
b) 标准化和归一化: z分数标准化(标准正态分布)、min-max归一化
- 特征变换: 模型无法处理或不合适处理
- 数据清洗;(最重要的)