在“Deep Forest: Towards an Alternative to Deep Neural Networks”(论文网址见文章最后)这篇论文中,提出了除利用神经网络的深度学习以外的基于树的深度方法gcForest。
这篇深度森林论文中使用的是多粒度级联森林gcForest,深度学习取得成功的主要原因是有:有逐层的处理、有内部特征的变化、有足够的模型复杂度。
类比于这些原因,周教授提出的多粒度级联森林中,使用级联的结构使得上一层森林的结果作为下一层森林的特征输入来得到逐层的处理。如下图所示:

在级联结构中,为了鼓励多样性(多样性是集成方法的关键),在每一级中使用两个完全随机森林和两个随机森林构成,每个森林都包括500棵树。每一级的输出是按照如下方式进行的,如下图所示,每个森林会有一群树,假设和图中一样有三棵树,对于每个输入的实例会根据每棵树来进行路径选择,最终到达一个叶节点,每个叶节点不一定是纯叶节点,故可以得到该叶节点的类值分布向量,每棵树都有一个类值分布向量,图中共有三棵树,可得到三个类值分布向量,最终对三个向量求平均可得到一个森林对于该实例的类值分布向量,共有四个森林(两个完全随机森林和两个随机森林),故一级可以得到4*3=12个特征(4个森林,每个森林有一个类值分布向量,本例中类值有3个),得到的该特征作为下一级的输入。

此外对于原始的训练集,gcForest通过多粒度的方式,即采用不同的滑动窗口得到基于原始训练集改变的特征来进行内部特征的改变。如下图所示,对于一个原始特征为400维的实例,可以采用100

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



