10、决策树：原理、构建与优化-优快云博客

本文链接：https://blog.youkuaiyun.com/work3/article/details/151235588

决策树：原理、构建与优化

1. 决策树简介

决策树和树的集成是监督学习算法，广泛应用于分类和回归任务。简单来说，决策树学习一系列的“如果/那么”问题，最终得出决策。它本质上是为监督预测问题设计的统计模型，监督预测涵盖了预测建模、模式识别、判别分析、多元函数估计和监督机器学习等。

不过，决策树是不稳定的模型，训练数据的微小变化可能会导致树的拓扑结构发生较大变化，但树的整体性能仍然保持稳定。可以将多个树组合成“森林”，创建决策树集成或随机森林算法，以克服单棵树在训练数据有微小扰动时表现出的不稳定性。

2. 决策树算法

决策树之所以得名，是因为其预测模型可以用树状结构表示。它通过迭代地提出问题来对数据进行划分（分割），随着树的深度增加，问题会变得更加具体。目标是在每次分割时尽可能提高模型的预测能力，使模型不断获取数据集的信息。

决策树从根节点开始自上而下读取。每个内部节点代表基于某个输入值的分割，输入可以在树的任意分割中出现。案例会沿着包含其输入值的分支向下移动。在具有区间输入的二叉树中，每个内部节点是一个简单的不等式。如果不等式为真，案例向左移动；否则向右移动。树的终端节点称为叶子节点，叶子节点代表预测目标，所有到达特定叶子节点的案例都被赋予相同的预测值。

决策树也可以进行多路分割，即将输入值划分为不相交的范围。多路分割需要对候选分割进行更多评估，要考虑所有输入在所有n路分割中的情况。例如，在4路分割中，需要评估所有可能的2路、3路和4路分割的候选方案。