机器学习中的特征工程与纽约出租车数据案例分析
1. 特征工程概述
特征工程是将原始数据进行数学变换,为机器学习建模创建新输入特征的过程。这些变换的复杂程度各异,从简单到极其复杂都有。它之所以有价值,主要基于以下五个原因:
- 与目标变量更相关 :能够创建与目标变量更紧密相关的特征。
- 引入外部数据源 :可以引入外部数据源来丰富数据。
- 利用非结构化数据 :允许使用非结构化数据。
- 特征更具可解释性 :能创建更具可解释性的特征。
- 特征选择自由 :可以自由创建大量特征,然后通过特征选择选出最佳子集。
特征工程与领域知识有着紧密的联系,并且在整个机器学习工作流程中有两个关键应用点:
- 在拟合模型之前对训练数据集进行处理。
- 在生成预测之前对预测数据集进行处理。
对于事件推荐问题,可以使用两种简单的特征工程方法:
- 从日期时间信息中提取特征。
- 对自然语言文本进行特征工程。
特征选择是从数据集中选择最具预测性特征子集的严谨方法。以下是一些相关术语的定义:
| 术语 | 定义 |
| ---- | ---- |
| 特征工程 | 转换输入数据以提取更多价值并提高机器学习模型的预测准确性 |
| 特征选择 | 从较大的特征集中选择最具预测性的特征子集的过程 |
| 前向选择 | 特征选择的一种方式,在当前活动特征集的基础上,迭代添
超级会员免费看
订阅专栏 解锁全文
46

被折叠的 条评论
为什么被折叠?



