无监督随机森林学习在交通场景分类中的应用
在机器学习领域,分类和聚类是重要的任务。随机森林作为一种强大的集成学习算法,在有监督学习中表现出色,同时也能被应用于无监督学习。下面将详细介绍随机森林算法及其在无监督学习中的应用。
随机森林算法基础
随机森林算法构建了一组独立生长的 CART 决策树作为基学习器。对于回归问题,最终的集成预测是所有树预测值的平均值;对于分类问题,则通过多数投票得出结果。由于随机森林由 CART 组成,它继承了 CART 的优点,如对异常值和噪声的鲁棒性,能够处理有序和分类变量,甚至在输入数据存在缺失时也能进行预测。不过,由于其采用平均法进行预测,解释性有所欠缺。
为了降低方差,随机森林的树应尽可能不相关。其学习过程受两个关键元素影响:
1. Bagging(自助聚合) :从原始数据集 $D_s$ 中有放回地随机抽取 $M_S$ 个数据点,生成 $B$ 个新的自助数据集 $D_{s,b}$($b = 1, …, B$)。平均而言,每个自助数据集中约有 37% 的原始数据点被遗漏,即 $\lim_{M_S \to \infty} (1 - \frac{1}{M_S})^{M_S} = \frac{1}{e} \approx 0.368$。Bagging 通过使用不同的数据集来学习,构建独立的树。
2. 随机特征子集 :在每个节点分裂时,不搜索所有 $N$ 个特征的最佳分裂点,而是随机选择 $N_{RF}$ 个特征的子集($N_{RF} < N$),常见的选择是 $N_{RF} = \lceil\sqrt{N}\rceil$。这一策略不仅加速了学习过程,还使基学
超级会员免费看
订阅专栏 解锁全文
2658

被折叠的 条评论
为什么被折叠?



