特征工程系列(一)特征工程简介

特征工程入门与实践 笔记

第一章 特征工程简介

特征工程理解

近年来数据工程师的职位出现,主要是设计数据流水线和架构,用于处理原始数据,将数据转化为数据科学家或者机器学习工程师可以用的形式。
调查显示,数据科学家最不喜欢准备数据。
清洗和组织数据就是特征工程。

特征工程是什么

特征工程包含:

  1. 转换数据的过程(例如将数据转化成表格的形式)
  2. 特征(对机器学习有意义的数据属性)
  3. 更好的表示潜在的业务问题
  4. 提高机器学习性能
特征工程的评估步骤
  1. 得到机器学习模型的基准性能
  2. 应用一种或多种特征工程
  3. 每种特征工程获取一个性能指标和基准性能进行对比
  4. 增量大于某个阈值(自定义,通常为百分比),则认为这种特征工程有利
评估监督学习算法

对分类问题进行五折交叉验证,以准确率为指标
对于回归问题用均方误差,然后再用五折交叉验证。

评估无监督学习算法

将数据特征行为进行分类,采用轮廓系数为测量指标。

特征增强

  • 对非结构化数据进行结构化
  • 填充缺失值
  • 数据归一化(标准化、minmax标准化、L1,L2正则化)

特征选择

删除对机器学习没有帮助甚至有害的属性
这些过程包括:

  • 相关系数
  • 识别并移除多重共线性
  • 卡方检验
  • 方差分析
  • 理解P值
  • 迭代特征选择
  • 用机器学习测量熵和信息增益

特征构建

在引入新的特征时,会出现实体匹配的问题。
通过高度非结构化的数据手动创建特征。

特征转换

创建一个维度更低、比原有高维度数据集性能更好的数据集,例如PCA主成分分析。

特征学习

用深度学习自动构建特征。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值