特征工程入门与实践 笔记
第一章 特征工程简介
特征工程理解
近年来数据工程师的职位出现,主要是设计数据流水线和架构,用于处理原始数据,将数据转化为数据科学家或者机器学习工程师可以用的形式。
调查显示,数据科学家最不喜欢准备数据。
清洗和组织数据就是特征工程。
特征工程是什么
特征工程包含:
- 转换数据的过程(例如将数据转化成表格的形式)
- 特征(对机器学习有意义的数据属性)
- 更好的表示潜在的业务问题
- 提高机器学习性能
特征工程的评估步骤
- 得到机器学习模型的基准性能
- 应用一种或多种特征工程
- 每种特征工程获取一个性能指标和基准性能进行对比
- 增量大于某个阈值(自定义,通常为百分比),则认为这种特征工程有利
评估监督学习算法
对分类问题进行五折交叉验证,以准确率为指标
对于回归问题用均方误差,然后再用五折交叉验证。
评估无监督学习算法
将数据特征行为进行分类,采用轮廓系数为测量指标。
特征增强
- 对非结构化数据进行结构化
- 填充缺失值
- 数据归一化(标准化、minmax标准化、L1,L2正则化)
特征选择
删除对机器学习没有帮助甚至有害的属性
这些过程包括:
- 相关系数
- 识别并移除多重共线性
- 卡方检验
- 方差分析
- 理解P值
- 迭代特征选择
- 用机器学习测量熵和信息增益
特征构建
在引入新的特征时,会出现实体匹配的问题。
通过高度非结构化的数据手动创建特征。
特征转换
创建一个维度更低、比原有高维度数据集性能更好的数据集,例如PCA主成分分析。
特征学习
用深度学习自动构建特征。