决策树(Decision Tree)是机器学习领域里极为常用的算法,在分类和回归问题中都有广泛应用。它借助树状结构来呈现决策流程,每个内部节点代表对一个特征或属性的测试,分支是测试结果,而叶节点则对应最终的类别或值 。
决策树的基本概念
节点(Node)
树中的每一个点都叫做节点。其中,根节点是整棵树的起始点,内部节点用于做出决策,叶节点则代表最终的决策成果 。
分支(Branch)
从一个节点延伸到另一个节点的路径,我们就称其为分支。
分裂(Split)
按照某个特征,把数据集划分成多个子集的过程,这就是分裂。
纯度(Purity)
纯度用于衡量一个子集中样本的类别是否一致。纯度越高,意味着子集中的样本越相似 。
决策树的工作原理
决策树通过递归方式将数据集分割成更小的子集,进而构建起树结构,具体步骤如下:
- 选择最佳特征:依据信息增益、基尼指数等标准,挑选出用于分割的最佳特征。
- 分割数据集:按照选定的特征,把数据集划分成多个子集。
- 递归构建子树:对每个子集重复上述操作,直到满足停止条件,比如所有样本都属于同一类别,或者达到了最大深度。
- 生成叶节点:一旦满足停止条件,就生成叶节点,并赋予其相应的类别或值。
决策树的构建标准
构建决