简介:
特征工程包括特征构建和特征挑选,个人对特征构建的兴趣要大一些,因为在实际项目当中我们往往会发现创造有用的特征比苦苦改进算法的回报率会高很多. 这篇博客想作为构造多项式特征的一个笔记,构建多项式特征是常见的构建新特征的方法之一. 在统计模型当中被广泛用于探索复合变量对y的影响,在机器学习项目当中并不像统计模型那样频繁使用,但我们依然可以用来探索一些我们认为可能会有帮助的变量.
定义:
多项式特征可以理解为对现有特征的乘积,比如现在有特征A,特征B,特征C,那就可以得到特征A的平方(A^2),A*B,A*C,B^2,B*C以及C^2. 新生成的这些变量即原有变量的有机组合,换句话说,当两个变量各自与y的关系并不强时候,把它们结合成为一个新的变量可能更会容易体现出它们与y的关系.
在<Python Data Science Handbook>(Jake VanderPlas)这本书当中对多项式特征有更广泛的描述,网址在 https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html
实现代码:
Sklearn提供了强大的功能 PolynomialFeatures,可以实现将几个变量互相交互到指定的程度,一般我们规定到 3 度,更高的程度更可能会导致过拟合.