非线性问题:多项式回归

这篇博客探讨了在回归问题中如何处理非线性数据。内容包括特征与标签的非线性关系,线性模型与非线性模型在处理非线性分布数据上的局限性,以及多项式回归如何通过特征转换来拟合非线性趋势。重点讨论了多项式回归的原理和在实际应用中如何选择最优的多项式次数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

特征分别与标签之间的关系

在这里插入图片描述
在这里插入图片描述
分类问题中特征与标签[0,1]或者[-1,1]之间关系明显是非线性的关系。除非我们 在拟合分类的概率,否则不存在例外。
在这里插入图片描述
当我们在进行分类的时候,我们的数据分布往往是这样的:
在这里插入图片描述
总结一下,对于回归问题,数据若能分布为一条直线,则是线性的,否则是非线性。对于分类问题,数据分布若能使
用一条直线来划分类别,则是线性可分的,否则数据则是线性不可分的。

线性模型与非线性模型处理非线性分布数据

在这里插入图片描述

在这里插入图片描述
,线性回归无法拟合出这条带噪音的正弦曲线的真实面貌,只能够模拟出大概的趋势(欠拟合),而决策树却
通过建立复杂的模型将几乎每个点都拟合出来了,容易过拟合。

在这里插入图片描述
在这里插入图片描述
线性模型、分箱(离散化)、非线性模型
线性模型的决策边界是平行的直线,非线性模型的决策边界是曲线或者交叉的直线。
在这里插入图片描述
线性数据:线性模型或者非线性模型
非线性数据:非线性模型、分箱(线性模型)

5.2 使用分箱处理非线性问题
让线性回归在非线性数据上表现提升的核心方法之一是对数据进行分箱,也就是离散化。
在这里插入图片描述

7. 如何选取最优的箱数

from sklearn.model_selection import cross_val_score as CVS
import numpy as np
pred,score,var = [], [], []
binsrange = [2,5,10,15,20,30]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值