23、机器学习中的特征工程、选择与数据集划分

机器学习中的特征工程、选择与数据集划分

1. 特征工程概述

在机器学习中,输入变量与目标变量之间的相关性是创建监督式机器学习模型的核心要素。除了选择模型类型,我们还需决定向模型输入何种数据。理想情况下,应提供与目标变量在现实中存在关联的输入变量,这个识别变量的过程就是特征工程。

1.1 特征工程定义与目标

特征工程是创建相关特征(输入变量)以用于模型训练的过程,其目标是找出能影响目标变量的因素。输入变量的质量对机器学习模型的性能和质量有着重大影响。创建新输入变量的方法有:
- 直接创建全新变量
- 修改现有变量
- 从现有变量中提取信息
- 聚合现有变量

特征工程是一个富有创造性的过程,需要对相关主题有深入了解和敏锐的洞察力,是机器学习项目中最需要领域专业知识的阶段。

1.2 特征工程的重要性

特征工程在机器学习中起着关键作用,对模型及其预测的质量有重大影响。通常,特征的质量对模型结果的影响比模型类型的选择更大,优质特征能让普通模型也取得良好效果。正如“垃圾进,垃圾出”原则,有缺陷或无意义的数据会导致无价值的输出。例如,用与产品销售无关的员工数据来预测销售,即便使用最复杂的算法,结果也毫无意义。

1.3 特征工程方法

方法 描述
添加外部特征 许多情况下,外部数据集的数据可作为优质特征。如预测网站流量时,除日期和时间外,可考虑
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值