决策树
决策树是一种常见的机器学习方法,这种方法简单、直观,并且我们在用建立完决策树的时候,可以将这颗树进行可视化。决策树也是后面集成学习中常用的基分类器。决策的过程就是使用我们已经有样例中的属性信息来一步一步进行判断。

上图是一个非常直观的决策树,根据西瓜的各个属性从上到下建立各个分支,最后判断是否是好瓜还是坏瓜。建立决策树应该考虑的问题:
- 样例中的属性哪些放在决策树的第一层哪些放在决策树的第二层,换句话说,一个西瓜有那么多的属性,我们应该先考虑哪个属性再考虑哪个属性来帮助我们判断是好瓜还是坏瓜,这样也体现了哪个属性对我的分类结果更为重要。
- 决策树的建立在什么时候停止,这棵树到多深到多宽才算是建好了。
这些问题的解决对建立决策树至关重要,我们一步一步慢慢理解。
1. 划分选择(属性选择)
这一部分回答上面的第一个问题,先考虑哪个属性。我们引入“熵”的概念,其实这个概念在我们高中的时候碰到过,出现在化学和物理中,最初的印象就是表示混乱程度。网上也有很多其他的解释,对于熵的量化,使用了扔硬币的方法,例如扔1次硬币会出现两种结果,按照楼主的自己理解,只要没有确定的结果出来,就说明这是混乱的,这时熵是1bit,用扔硬
决策树原理与应用

本文介绍了决策树作为一种机器学习方法的基本概念,强调了其直观性和在集成学习中的作用。内容涵盖了决策树的划分选择,包括信息熵、信息增益、增益率和基尼指数等属性选择标准,以及决策树停止划分的条件。通过对决策树的学习,读者可以理解如何通过不同属性选择来构建决策树并避免过拟合。
最低0.47元/天 解锁文章
751

被折叠的 条评论
为什么被折叠?



