【机器学习】特征工程快速入门

最新推荐文章于 2025-09-13 20:49:59 发布

原创

最新推荐文章于 2025-09-13 20:49:59 发布 · 1.3k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能

重点：特征预处理、特征提取、特征选择和特征降维
特征预处理：数据清洗、归一化、标准化
特征提取：特征离散化、哑编码、独热编码、词袋法、TF-IDF
特征选择：过滤、包装、嵌入选择法
特征降维：PCA、LDA
特征工程.png

特征工程概述

所有一切为了让模型效果变的更好的数据处理方式都可以认为属于特征工程这个范畴中的一个操作；
至于需求做不做这个特征工程，需要我们在开发过程中不但的进行尝试。
常规的特征工程需要处理的内容：
- 异常数据的处理删除、填充
- 数据不平衡处理
- 文本处理：词袋法、TF-IDF
- 多项式扩展、哑编码、标准化、归一化、区间缩放法、PCA、特征选择…
- 将均值、方差、协方差等信息作为特征属性，对特征属性进行对数转换、指数转换…
- 结合业务衍生出一些新的特征属性…

特征工程介绍

为什么需要特征工程（Feature Engineering）

机器学习领域的大神Andrew Ng(吴恩达)老师说“Coming up with features is difficult, time-consuming, requires expert knowledge. ‘Applied machine learning’ is basically feature engineering. ”

处理特征是困难的，耗时的，需要专业知识。'将它应用机器学习’是特征工程的基础。

业界广泛流传：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。

什么是特征工程

特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。
意义：会直接影响机器学习的效果

特征工程步骤

特征预处理

特征预处理包括数据清洗、归一化和标准化。

数据清洗

数据清洗（data learning）是数据预处理的一个步骤，指的是对原始数据进行处理和筛选，以去除无用、重复、错误、缺失或不一致的数据，从而获得干净、可靠、一致的数据集。
数据清洗是数据分析和机器学习的重要步骤，因为原始数据往往存在许多问题，如缺失值、重复值、异常值、不一致的格式等等，这些问题会影响到后续分析和建模的准确性和可靠性。因此，在对数据进行分析和建模之前，需要对原始数据进行清洗，以确保数据的质量和准确性。在实际的工作中，数据清洗通常占开发过程的30%-50%左右的时间。

数据清洗步骤

预处理

在数据预处理过程主要考虑两个方面，如下：

选择数据处理工具：关系型数据库或者Python

查看数据的元数据以及数据特征：一是查看元数据，包括字段解释、数据来源等一切可以描述数据的信息；另外是抽取一部分数据，通过人工查看的方式，对数据本身做一个比较直观的了解，并且初步发现一些问题，为之后的数据处理做准备。