RandomForest 源码解读

最新推荐文章于 2024-11-13 18:06:50 发布

ChinaYiqun

最新推荐文章于 2024-11-13 18:06:50 发布

阅读量604

点赞数

CC 4.0 BY-SA版权

分类专栏：算法文章标签：决策树机器学习 python

本文链接：https://blog.youkuaiyun.com/Real_neu/article/details/121133269

算法专栏收录该内容

12 篇文章

订阅专栏

本文深入解析随机森林算法原理，包括其组成结构、优缺点，并探讨关键参数设置与源码实现细节，如并行化处理和重要性评估。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RandomForest 随机森林

多棵决策树组成的集成学习模型
原理：
https://zhuanlan.zhihu.com/p/139510947

优点：

效果稳定，无偏估计，方差小，有较好的泛化能力,不容易过拟合。
特征缺失时，也可预测。
支持并行化，速度快。

缺点：

可能有很多相似的决策树，掩盖了真实的结果，有时候准确性没boosting强。
回归问题效果受到噪音影响明显。

重要参数:

n_estimators 树的个数
max_depth 树的深度
min_samples_split 分割内部节点所需的最小样本数
min_samples_leaf 叶节点所需的最小样本数
max_features 对每棵树用到的最大特征数

调参原则:

先粗->后细->最后网格搜索

源码2600 多行,只选取核心代码段进行讲解:

源码剖析1:

trees = [
    self._make_estimator(append=False, random_state=random_state)
    for i in range(n_more_estimators)
]

构建多棵决策树

源码剖析2:

lock = threading.Lock()
Parallel(
    n_jobs=n_jobs,
    verbose=self.verbose,
    **_joblib_parallel_args(require="sharedmem"),
)(
    delayed(_accumulate_prediction)(e.predict_proba, X, all_proba, lock)
    for e in self.estimators_
)

def _accumulate_prediction(predict, X, out, lock):
    """
    This is a utility function for joblib's Parallel.
    It can't go locally in ForestClassifier or ForestRegressor, because joblib
    complains that it cannot pickle it when placed there.
    """
    prediction = predict(X, check_input=False)
    with lock:
        if len(out) == 1:
            out[0] += prediction
        else:
            for i in range(len(out)):
                out[i] += prediction[i]

并行化时,threading.Lock(),加锁实现预测值相加。

源码剖析3:

self.oob_score_ = accuracy_score(
            y, np.argmax(self.oob_decision_function_, axis=1)
        )

boostrap和 oob_score两个参数一般要配合使用。如果boostrap是False，那么每次训练时都用整个数据集训练，如果boostrap是True，那么就会产生袋外数据。那么什么是袋外数据？

然而有放回抽样也会有自己的问题。由于是有放回，一些样本可能在同一个自助集中出现多次，而其他一些却可能被忽略，一般来说，每一次抽样，某个样本被抽到的概率是 1/n ，所以不被抽到的概率就是 1-1/n ,所以n个样本都不被抽到的概率就是： $lim⁡n→∞(1−1n)n\lim _{n \rightarrow \infty}\left(1-\frac{1}{n}\right)^{n}$
这个极限是0.37。为了这些数据不被浪费，我们也可以把他们用来作为集成算法的测试集。