深度决策树与随机森林的高级版本及深度线性分类器
1. 深度决策树的数据分类过程
在深度决策树中,分类数据项的过程如下:决策树由从训练示例映射而来的向量集构建,即 (T_{rh} = {h_1, h_2, \cdots, h_N})。对于新向量 (x),先通过池化层将其映射为隐藏向量 (h),然后按照特定过程对映射后的向量 (h) 进行分类,此过程与简单版本的决策树类似,只是多了池化操作。
池化是将输入向量映射为低维向量的过程。构建决策树时,先通过池化层将训练示例映射为各自的隐藏向量,再用这些隐藏向量构建决策树。在这种决策树中,非叶节点是隐藏向量中的属性,边是隐藏向量的元素。我们还可以通过划分隐藏向量集来构建随机森林。
2. 高级深度版本的决策树和随机森林
2.1 无监督决策树
最初决策树是为处理有标签示例的监督学习而设计的,现在将其修改为能处理无标签示例的无监督版本。在使用无监督决策树进行数据项聚类前,需要先确定聚类的数量和初始聚类原型。
2.1.1 连续属性的离散化
在决策树的分支中,每个属性都假设为离散的。离散化连续属性时,先选取最大值和最小值,然后确定它们之间的有限范围数量。连续属性值会被映射为对应其原始值所在范围的离散值。但离散化连续属性的一个问题是如何确定范围数量和每个范围的大小。
2.1.2 根节点的选择
假设每个属性的值数量有限,连续属性已离散化。无标签示例根据其属性值进行聚类,每个聚类由一个属性值表征。计算每个属性值的聚类索引,选择聚类索引最大的属性作为根节点,聚类数量即为给定属性的值数量。
超级会员免费看
订阅专栏 解锁全文
1618

被折叠的 条评论
为什么被折叠?



