27、回归分析与聚类分析：预测连续目标变量与处理无标签数据

algae

于 2025-10-25 15:26:07 发布

阅读量10

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签：回归分析随机森林回归支持向量机回归

本文链接：https://blog.youkuaiyun.com/algae/article/details/155049376

Python机器学习实战精讲专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

回归分析与聚类分析：预测连续目标变量与处理无标签数据

1. 随机森林回归

随机森林算法是一种集成技术，它结合了多个决策树。由于随机性，随机森林通常比单个决策树具有更好的泛化性能，有助于降低模型的方差。此外，随机森林对数据集中的异常值不太敏感，并且不需要太多的参数调整，通常只需试验集成中树的数量这一参数。

随机森林回归的基本算法与分类算法几乎相同，唯一的区别在于使用均方误差（MSE）准则来生长单个决策树，并且预测的目标变量是所有决策树预测值的平均值。

以下是使用 Housing 数据集的所有特征，对 60% 的示例拟合随机森林回归模型，并在其余 40% 上评估其性能的代码：

X = df.iloc[:, :-1].values
y = df['MEDV'].values
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, random_state=1)

from sklearn.ensemble import RandomForestRegressor
forest = RandomForestRegressor(n_estimators=1000, criterion='mse', random_state=1, n_jobs=-1)
forest.fit(X_train, y_train)
y_train_pred = forest.predict(X_train)
y_test_pred = forest.predict(X_test)
print('MSE train: %.3f, test: %.