特征工程:原理与实践
1. 引言
在机器学习中,当你有了数据并训练了模型,但结果却不尽如人意时,通常有三种改进途径:改进模型、收集更多数据,以及修改特征以更好地捕捉问题本质。最后一种途径就是特征工程(FE),它既是一门艺术,也是一系列技巧和方法的集合。
为了理解FE的重要性,我们可以类比数学教材中解决文字问题的技巧。例如,有这样一个问题:一只狗以每小时10英里的速度在两个以每小时5英里的速度相向而行、相距100英尺的配偶之间来回奔跑,那么这只狗总共跑了多远?根据不同的解题思路,解决这个问题可能需要用到积分(将狗跑的所有距离相加),也可能只需要小学算术(计算配偶相遇所需的时间,再乘以狗的速度)。在机器学习中,大多数算法将现实表示为“特征”向量,选择正确的表示方式至关重要,而且有时可以在算法之外对特征进行预处理,结合问题领域的见解来更好地解决问题。这种操作就是FE,它往往能带来比调整算法本身更大的性能提升。
2. 书籍结构
本书分为两部分。第一部分介绍尽可能与领域无关的FE思想和方法,第二部分通过案例研究展示这些技术在关键领域(如图形数据、时间序列、文本处理、计算机视觉等)的应用。所有案例研究的代码和数据都可以在 http://artoffeatureengineering.com 上以开源许可证的形式获取。
本书各章节内容如下:
- 第1章 :涵盖定义和流程。FE的关键在于扩展机器学习周期以适应FE,并包括数据发布计划以避免过拟合。本周期有两种核心分析:在机器学
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



