回归分析与聚类分析:预测连续目标变量与处理无标签数据
1. 随机森林回归
随机森林算法是一种集成技术,它结合了多个决策树。由于随机性,随机森林通常比单个决策树具有更好的泛化性能,有助于降低模型的方差。此外,随机森林对数据集中的异常值不太敏感,并且不需要太多的参数调整,通常只需试验集成中树的数量这一参数。
随机森林回归的基本算法与分类算法几乎相同,唯一的区别在于使用均方误差(MSE)准则来生长单个决策树,并且预测的目标变量是所有决策树预测值的平均值。
以下是使用 Housing 数据集的所有特征,对 60% 的示例拟合随机森林回归模型,并在其余 40% 上评估其性能的代码:
X = df.iloc[:, :-1].values
y = df['MEDV'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)
from sklearn.ensemble import RandomForestRegressor
forest = RandomForestRegressor(n_estimators=1000, criterion='mse', random_state=1, n_jobs=-1)
forest.fit(X_train, y_train)
y_train_pred = forest.predict(X_train)
y_test_pred = forest.predict(X_test)
print('MSE train: %.3f, test: %.
超级会员免费看
订阅专栏 解锁全文
662

被折叠的 条评论
为什么被折叠?



