14、机器学习中的特征工程与纽约出租车数据案例分析

机器学习中的特征工程与纽约出租车数据案例分析

1. 特征工程概述

特征工程是将原始数据进行数学变换,为机器学习建模创建新输入特征的过程。这些变换的复杂程度各异,从简单到极其复杂都有。它之所以有价值,主要基于以下五个原因:
- 与目标变量更相关 :能够创建与目标变量更紧密相关的特征。
- 引入外部数据源 :可以引入外部数据源来丰富数据。
- 利用非结构化数据 :允许使用非结构化数据。
- 特征更具可解释性 :能创建更具可解释性的特征。
- 特征选择自由 :可以自由创建大量特征,然后通过特征选择选出最佳子集。

特征工程与领域知识有着紧密的联系,并且在整个机器学习工作流程中有两个关键应用点:
- 在拟合模型之前对训练数据集进行处理。
- 在生成预测之前对预测数据集进行处理。

对于事件推荐问题,可以使用两种简单的特征工程方法:
- 从日期时间信息中提取特征。
- 对自然语言文本进行特征工程。

特征选择是从数据集中选择最具预测性特征子集的严谨方法。以下是一些相关术语的定义:
| 术语 | 定义 |
| ---- | ---- |
| 特征工程 | 转换输入数据以提取更多价值并提高机器学习模型的预测准确性 |
| 特征选择 | 从较大的特征集中选择最具预测性的特征子集的过程 |
| 前向选择 | 特征选择的一种方式,在当前活动特征集的基础上,迭代添

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值