深度决策树技术详解
在机器学习领域,决策树是一种强大且常用的分类和回归工具。本文将深入探讨决策树的相关技术,包括其构建过程、基本深度版本等内容。
1. 燕子版本决策树基础
在决策树的构建中,首先需要选择合适的根节点。根节点的选择通过以下公式确定:
$$A_{max} = \underset{i = 1}{\overset{d}{\mathrm{argmax}}} \ p_{A_i}$$
这里,$A_{max}$ 表示具有最大概率的属性,$p_{A_i}$ 是属性 $A_i$ 的概率。根节点通过递归调用算法与子节点相连,递归时会排除已选作根节点的属性,并针对每个属性值 $T_{rA_i}=v_k$ 进行操作。
在选择属性作为当前节点标识符时,不平衡指数可以用信息增益来替代。对于属性值 $A_i = v_{ik}$ 中类别 $c_j$ 的比例,通过特定公式计算。每个属性的熵通过以下公式计算:
$$E(A_i=v_{ik}) = -\sum_{j = 1}^{M} p((A_i=v_{ik})\land c_j) \log_2 p((A_i=v_{ik})\land c_j)$$
信息增益则通过以下公式为每个属性计算:
$$IG_{A_i} = \sum_{k = 1}^{|A_i|} E(A_i=v_{ik})$$
具有最大信息增益的属性将被选作节点标识符。直观上,会选择在各个类别上具有最大不平衡性的属性作为根节点。在确定根节点后,会为每个属性值分配一个训练例子子集,用于选择子节点。
2. 决策树的学习过程
决策树的学习过程是利用训练例子构建决策树的过程。在确定根节点后,对于每个分
超级会员免费看
订阅专栏 解锁全文
1345

被折叠的 条评论
为什么被折叠?



