机器学习中的特征工程、选择与数据集划分
1. 特征工程概述
在机器学习中,输入变量与目标变量之间的相关性是创建监督式机器学习模型的核心要素。除了选择模型类型,我们还需决定向模型输入何种数据。理想情况下,应提供与目标变量在现实中存在关联的输入变量,这个识别变量的过程就是特征工程。
1.1 特征工程定义与目标
特征工程是创建相关特征(输入变量)以用于模型训练的过程,其目标是找出能影响目标变量的因素。输入变量的质量对机器学习模型的性能和质量有着重大影响。创建新输入变量的方法有:
- 直接创建全新变量
- 修改现有变量
- 从现有变量中提取信息
- 聚合现有变量
特征工程是一个富有创造性的过程,需要对相关主题有深入了解和敏锐的洞察力,是机器学习项目中最需要领域专业知识的阶段。
1.2 特征工程的重要性
特征工程在机器学习中起着关键作用,对模型及其预测的质量有重大影响。通常,特征的质量对模型结果的影响比模型类型的选择更大,优质特征能让普通模型也取得良好效果。正如“垃圾进,垃圾出”原则,有缺陷或无意义的数据会导致无价值的输出。例如,用与产品销售无关的员工数据来预测销售,即便使用最复杂的算法,结果也毫无意义。
1.3 特征工程方法
| 方法 | 描述 |
|---|---|
| 添加外部特征 | 许多情况下,外部数据集的数据可作为优质特征。如预测网站流量时,除日期和时间外,可考虑 |
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



