数据特征处理与模型性能提升
在机器学习中,数据的特征表示方式对模型的性能有着至关重要的影响。不同的模型对特征的处理方式不同,我们可以通过一些方法来优化特征表示,从而提升模型的性能。
1. 分箱、离散化与线性模型和树模型
数据的最佳表示方式不仅取决于数据的语义,还与所使用的模型类型有关。常见的线性模型和树模型(如决策树、梯度提升树和随机森林)在处理不同特征表示时具有不同的特性。
以 wave 回归数据集为例,该数据集只有一个输入特征。我们可以比较线性回归模型和决策树回归器在该数据集上的表现:
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
import mglearn
import numpy as np
import matplotlib.pyplot as plt
X, y = mglearn.datasets.make_wave(n_samples=100)
plt.plot(X[:, 0], y, 'o')
line = np.linspace(-3, 3, 1000)[:-1].reshape(-1, 1)
reg = LinearRegression().fit(X, y)
plt.plot(line, reg.predict(line), label="linear regression")
reg = DecisionTreeRegressor(min_samples_split=3).fit(X, y)
plt.plot(line, re
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



