23、机器学习中的特征工程、选择与数据集划分

cola5

于 2025-09-19 10:45:15 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏： AI与数据的终极指南文章标签：特征工程特征选择数据集划分

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/cola5/article/details/152391438

AI与数据的终极指南专栏收录该内容

36 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

机器学习中的特征工程、选择与数据集划分

1. 特征工程概述

在机器学习中，输入变量与目标变量之间的相关性是创建监督式机器学习模型的核心要素。除了选择模型类型，我们还需决定向模型输入何种数据。理想情况下，应提供与目标变量在现实中存在关联的输入变量，这个识别变量的过程就是特征工程。

1.1 特征工程定义与目标

特征工程是创建相关特征（输入变量）以用于模型训练的过程，其目标是找出能影响目标变量的因素。输入变量的质量对机器学习模型的性能和质量有着重大影响。创建新输入变量的方法有：
- 直接创建全新变量
- 修改现有变量
- 从现有变量中提取信息
- 聚合现有变量

特征工程是一个富有创造性的过程，需要对相关主题有深入了解和敏锐的洞察力，是机器学习项目中最需要领域专业知识的阶段。

1.2 特征工程的重要性

特征工程在机器学习中起着关键作用，对模型及其预测的质量有重大影响。通常，特征的质量对模型结果的影响比模型类型的选择更大，优质特征能让普通模型也取得良好效果。正如“垃圾进，垃圾出”原则，有缺陷或无意义的数据会导致无价值的输出。例如，用与产品销售无关的员工数据来预测销售，即便使用最复杂的算法，结果也毫无意义。

1.3 特征工程方法

方法	描述
添加外部特征	许多情况下，外部数据集的数据可作为优质特征。如预测网站流量时，除日期和时间外，可考虑

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。