1、特征工程:原理与实践

特征工程:原理与实践

1. 引言

在机器学习中,当你有了数据并训练了模型,但结果却不尽如人意时,通常有三种改进途径:改进模型、收集更多数据,以及修改特征以更好地捕捉问题本质。最后一种途径就是特征工程(FE),它既是一门艺术,也是一系列技巧和方法的集合。

为了理解FE的重要性,我们可以类比数学教材中解决文字问题的技巧。例如,有这样一个问题:一只狗以每小时10英里的速度在两个以每小时5英里的速度相向而行、相距100英尺的配偶之间来回奔跑,那么这只狗总共跑了多远?根据不同的解题思路,解决这个问题可能需要用到积分(将狗跑的所有距离相加),也可能只需要小学算术(计算配偶相遇所需的时间,再乘以狗的速度)。在机器学习中,大多数算法将现实表示为“特征”向量,选择正确的表示方式至关重要,而且有时可以在算法之外对特征进行预处理,结合问题领域的见解来更好地解决问题。这种操作就是FE,它往往能带来比调整算法本身更大的性能提升。

2. 书籍结构

本书分为两部分。第一部分介绍尽可能与领域无关的FE思想和方法,第二部分通过案例研究展示这些技术在关键领域(如图形数据、时间序列、文本处理、计算机视觉等)的应用。所有案例研究的代码和数据都可以在 http://artoffeatureengineering.com 上以开源许可证的形式获取。

本书各章节内容如下:
- 第1章 :涵盖定义和流程。FE的关键在于扩展机器学习周期以适应FE,并包括数据发布计划以避免过拟合。本周期有两种核心分析:在机器学

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值