Python，sklearn使用分箱处理非线性问题

最新推荐文章于 2025-03-23 17:12:07 发布

bingbangx

最新推荐文章于 2025-03-23 17:12:07 发布

阅读量2.5k

点赞数 2

分类专栏： sklearn

本文链接：https://blog.youkuaiyun.com/bingbangx/article/details/108113427

版权

本文探讨了通过分箱处理非线性问题的方法，利用Python的sklearn库实现线性回归与决策树模型，对比分箱前后模型的拟合效果，并通过交叉验证选取最优箱数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用分箱处理非线性问题。

1、导入所需要的库

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor

2、创建需要拟合的数据集

rnd = np.random.RandomState(42) #设置随机数种子
X = rnd.uniform(-3, 3, size=100) #random.uniform，从输入的任意两个整数中取出size个随机数
#生成y的思路：先使用NumPy中的函数生成一个sin函数图像，然后再人为添加噪音
y = np.sin(X) + rnd.normal(size=len(X)) / 3 #random.normal，生成size个服从正态分布的随机数
#使用散点图观察建立的数据集是什么样子
plt.scatter(X, y,marker='o',c='k',s=20)
plt.show()
#为后续建模做准备：sklearn只接受二维以上数组作为特征矩阵的输入
X.shape
X = X.reshape(-1, 1)

3、使用原始数据进行建模

LinearR = LinearRegression().fit(X, y)
TreeR = DecisionTreeRegressor(random_state=0).fit(X, y)
#放置画布
fig, ax1 = plt.subplots(1)
#创建测试数据：一系列分布在横坐标上的点
line = np.linspace(-3, 3, 1000, endpoint=False).reshape(-1, 1)

#将测试数据带入predict接口，获得模型的拟合效果并进行绘制
ax1.plot(line, LinearR.predict(line), linewidth=2, color='green',
label="linear regression")
ax1.plot(line, TreeR.predict(line), linewidth=2, color='red',
label="decision tree")
#将原数据上的拟合绘制在图像上

最低0.47元/天解锁文章