决策树:原理、构建与优化
1. 决策树简介
决策树和树的集成是监督学习算法,广泛应用于分类和回归任务。简单来说,决策树学习一系列的“如果/那么”问题,最终得出决策。它本质上是为监督预测问题设计的统计模型,监督预测涵盖了预测建模、模式识别、判别分析、多元函数估计和监督机器学习等。
不过,决策树是不稳定的模型,训练数据的微小变化可能会导致树的拓扑结构发生较大变化,但树的整体性能仍然保持稳定。可以将多个树组合成“森林”,创建决策树集成或随机森林算法,以克服单棵树在训练数据有微小扰动时表现出的不稳定性。
2. 决策树算法
决策树之所以得名,是因为其预测模型可以用树状结构表示。它通过迭代地提出问题来对数据进行划分(分割),随着树的深度增加,问题会变得更加具体。目标是在每次分割时尽可能提高模型的预测能力,使模型不断获取数据集的信息。
决策树从根节点开始自上而下读取。每个内部节点代表基于某个输入值的分割,输入可以在树的任意分割中出现。案例会沿着包含其输入值的分支向下移动。在具有区间输入的二叉树中,每个内部节点是一个简单的不等式。如果不等式为真,案例向左移动;否则向右移动。树的终端节点称为叶子节点,叶子节点代表预测目标,所有到达特定叶子节点的案例都被赋予相同的预测值。
决策树也可以进行多路分割,即将输入值划分为不相交的范围。多路分割需要对候选分割进行更多评估,要考虑所有输入在所有n路分割中的情况。例如,在4路分割中,需要评估所有可能的2路、3路和4路分割的候选方案。
3. 分类树与回归树
- 分类树 :当目标是分类变量时,模型称为分类树。叶子
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



