RandomForest 随机森林
多棵决策树组成的集成学习模型
原理:
https://zhuanlan.zhihu.com/p/139510947
优点:
- 效果稳定,无偏估计,方差小,有较好的泛化能力,不容易过拟合。
- 特征缺失时,也可预测。
- 支持并行化,速度快。
缺点:
- 可能有很多相似的决策树,掩盖了真实的结果,有时候准确性没boosting强。
- 回归问题效果受到噪音影响明显。
重要参数:
n_estimators 树的个数
max_depth 树的深度
min_samples_split 分割内部节点所需的最小样本数
min_samples_leaf 叶节点所需的最小样本数
max_features 对每棵树用到的最大特征数
调参原则:
先粗->后细->最后网格搜索
源码2600 多行,只选取核心代码段进行讲解:
源码剖析1:
trees = [
self._make_estimator(append=False, random_state=random_state)
for i in range(n_more_estimators)
]
构建多棵决策树
源码剖析2:
lock = threading.Lock()
Parallel(
n_jobs=n_jobs,
verbose=self.verbose,
**_joblib_parallel_args(require="sharedmem"),
)(
delayed(_accumulate_prediction)(e.predict_proba, X, all_proba, lock)
for e in self.estimators_
)
def _accumulate_prediction(predict, X, out, lock):
"""
This is a utility function for joblib's Parallel.
It can't go locally in ForestClassifier or ForestRegressor, because joblib
complains that it cannot pickle it when placed there.
"""
prediction = predict(X, check_input=False)
with lock:
if len(out) == 1:
out[0] += prediction
else:
for i in range(len(out)):
out[i] += prediction[i]
并行化时,threading.Lock(),加锁实现预测值相加。
源码剖析3:
self.oob_score_ = accuracy_score(
y, np.argmax(self.oob_decision_function_, axis=1)
)
boostrap和 oob_score两个参数一般要配合使用。如果boostrap是False,那么每次训练时都用整个数据集训练,如果boostrap是True,那么就会产生袋外数据。那么什么是袋外数据?
然而有放回抽样也会有自己的问题。由于是有放回,一些样本可能在同一个自助集中出现多次,而其他一些却可能被忽略,一般来说,每一次抽样,某个样本被抽到的概率是 1/n ,所以不被抽到的概率就是 1-1/n ,所以n个样本都不被抽到的概率就是:
lim
n
→
∞
(
1
−
1
n
)
n
\lim _{n \rightarrow \infty}\left(1-\frac{1}{n}\right)^{n}
limn→∞(1−n1)n
这个极限是0.37。为了这些数据不被浪费,我们也可以把他们用来作为集成算法的测试集。