机器学习 - 特征工程 - 构造多项式特征Polynomial Features

这篇博客探讨了特征工程中的多项式特征构造,它通过对现有特征的乘积来创建新特征,有助于探索复合变量对目标变量的影响。文中介绍了在统计模型和机器学习项目中如何使用这种方法,并引用了《Python Data Science Handbook》中的相关内容。还展示了如何使用Scikit-learn库的PolynomialFeatures进行实现,并强调了度数选择和避免过拟合的问题。最后提到,构建的特征需通过与目标变量的相关性分析来验证其有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介:

特征工程包括特征构建和特征挑选,个人对特征构建的兴趣要大一些,因为在实际项目当中我们往往会发现创造有用的特征比苦苦改进算法的回报率会高很多. 这篇博客想作为构造多项式特征的一个笔记,构建多项式特征是常见的构建新特征的方法之一. 在统计模型当中被广泛用于探索复合变量对y的影响,在机器学习项目当中并不像统计模型那样频繁使用,但我们依然可以用来探索一些我们认为可能会有帮助的变量. 

定义:

多项式特征可以理解为对现有特征的乘积,比如现在有特征A,特征B,特征C,那就可以得到特征A的平方(A^2),A*B,A*C,B^2,B*C以及C^2. 新生成的这些变量即原有变量的有机组合,换句话说,当两个变量各自与y的关系并不强时候,把它们结合成为一个新的变量可能更会容易体现出它们与y的关系.

在<Python Data Science Handbook>(Jake VanderPlas)这本书当中对多项式特征有更广泛的描述,网址在 https://jakevdp.github.io/PythonDataScienceHandbook/05.04-feature-engineering.html

实现代码:

Sklearn提供了强大的功能 PolynomialFeatures,可以实现将几个变量互相交互到指定的程度,一般我们规定到 3 度,更高的程度更可能会导致过拟合. 


                
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值