MATLAB算法实战应用案例精讲-【数模应用】特征工程（补充篇）

林聪木

于 2023-09-05 00:30:00 发布

阅读量661

点赞数

分类专栏：【数学建模应用】MATLAB算法实战案例精讲500篇文章标签：算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_36130719/article/details/132616571

版权

【数学建模应用】MATLAB算法实战案例精讲500篇专栏收录该内容

757 篇文章 ¥49.90 ¥99.00

订阅专栏

目录

几个高频面试题目

1）特征与属性的区别？

2）什么是特征重要性？

什么是特征工程

特征工程常用方法

数据预处理

数据清洗–关联性验证

数据不平衡

1. 文本数据转换为数值型数据

2. 缺省值填充

特征工程的步骤

1. 探索性数据分析

2. 特征理解——识别数据

3. 特征增强——清洗数据

4. 特征构建——生成新特征

5. 特征选择——发掘数据的新特征

1) 标准化（Standardization）

2) 归一化（Normalization）

3) 区间缩放（scaling）

非线性变换【统计变换】

2) box-cox 变换

离散变量处理

1) 标签编码（label encoder）

2) 独热编码（one hot encoder ）

3) 标签二值化（LabelBinarizer）

1) PCA（Principal Component Analysis）

2) SVD（Singular Value Decomposition）

3) PCA 和 SVD 的关系

4) Fisher 线性判别分析（Linear Discriminant Analysis,LDA）

非线性变换特征

离散化特征

示例 1：为回归模型添加临时特征

自行车租赁数据集

创建特征工程实验

使用工作室（经典）的特征工程

示例 2：创建用于文本挖掘的特征

前言

“数据决定了机器学习的上限，而算法只是尽可能逼近这个上限”，这里的数据指的就是经过特征工程得到的数据。特征工程指的是把原始数据转变为模型的训练数据的过程，它的目的就是获取更好的训练数据特征，使得机器学习模型逼近这个上限。特征工程能使得模型的性能得到提升，有时甚至在简单的模型上也能取得不错的效果。特征工程在机器学习中占有非常重要的作用，一般认为括特征构建、特征提取、特征选择三个部分。特征构建比较麻烦，需要一定的经验。特征提取与特征选择都是为了从原始特征中找出最有效的特征。它们之间的区别是特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征；而特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集。两者都能帮助减少特征的维度、数据冗余，特征提取有时能发现更有意义的特征属性，特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。

特征工程出现在机器学习工作流程的最初阶段。特性工程是决定结果成败的最关键和决定性的因素。

<

了解本专栏

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

林聪木 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。