06 随机森林
6.1 简介
随机森林是一种集成学习方法,通过构建多棵决策树并将其预测结果进行平均(对于回归任务)或投票(对于分类任务)来提高模型的准确性和鲁棒性。相比单一的决策树,随机森林能够更好地应对数据中的噪声和异常值,并且通常具有更高的预测精度。
随机森林通过在构建每棵树时引入随机性来防止过拟合。这种随机性体现在两个方面:一是对样本进行有放回的随机抽样(即Bootstrap抽样),二是在每个节点分裂时随机选择特征进行分裂。
6.2 构建随机森林模型
在scikit-learn
中,我们可以使用RandomForestClassifier
(用于分类)或RandomForestRegressor
(用于回归)来构建随机森林模型。下面是一个简单的分类示例:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
# 生成模拟数据
X, y = make_classification(n_samples=200, n_features=