MATLAB算法实战应用案例精讲-【数模应用】特征工程(补充篇)

目录

前言

几个高频面试题目

1)特征与属性的区别?

2)什么是特征重要性?

算法原理

什么是特征工程

特征工程常用方法

数据预处理

 数据清洗

预处理

数据清洗–关联性验证

数据不平衡

特征转化

1. 文本数据转换为数值型数据

2. 缺省值填充

4. 哑编码

特征工程的步骤

1. 探索性数据分析

2. 特征理解——识别数据

3. 特征增强——清洗数据

4. 特征构建——生成新特征

5. 特征选择——发掘数据的新特征

特征理解

特征清洗

缺失处理

特征选择

特征变换

1) 标准化(Standardization)

2) 归一化(Normalization)

3) 区间缩放(scaling)

非线性变换【统计变换】

1) log 变换

2) box-cox 变换

离散变量处理

1) 标签编码(label encoder)

2) 独热编码(one hot encoder )

3) 标签二值化(LabelBinarizer)

降维

1) PCA(Principal Component Analysis)

2) SVD(Singular Value Decomposition)

3) PCA 和 SVD 的关系

4) Fisher 线性判别分析(Linear Discriminant Analysis,LDA)

5) T-SNE

特征构造

类别编码

非线性变换特征

离散化特征

统计特征

 应用案例

示例 1:为回归模型添加临时特征

自行车租赁数据集

创建特征工程实验

使用工作室(经典)的特征工程

结果

示例 2:创建用于文本挖掘的特征

特征哈希


前言

 “数据决定了机器学习的上限,而算法只是尽可能逼近这个上限”,这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程,它的目的就是获取更好的训练数据特征,使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升,有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用,一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦,需要一定的经验。 特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征;而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余,特征提取有时能发现更有意义的特征属性,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。

特征工程出现在机器学习工作流程的最初阶段。特性工程是决定结果成败的最关键和决定性的因素。

<

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

林聪木

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值