一、决策树是如何工作的
我们经常使用决策树处理分类问题,近来的调查表明决策树也是最经常使用的数据挖掘算法。 它之所以如此流行,一个很重要的原因就是不需要了解机器学习的知识,就能搞明白决策树是如何工作的。 如果你以前没有接触过决策树,完全不用担心,它的概念非常简单。即使不知道它也可以通 过简单的图形了解其工作原理,图3-1所示的流程图就是一个决策树,长方形代表判断模块 (decision block),椭圆形代表终止模块(terminating block),表示已经得出结论,可以终止运行。 从判断模块引出的左右箭头称作分支(branch),它可以到达另一个判断模块或者终止模块。图 3-1 构造了一个假想的邮件分类系统,它首先检测发送邮件域名地址。如果地址为 myEmployer.com,则将其放在分类“无聊时需要阅读的邮件”中。如果邮件不是来自这个域名, 则检查邮件内容里是否包含单词曲棍球,如果包含则将邮件归类到“需要及时处理的朋友邮件”, 如果不包含则将邮件归类到“无需阅读的垃圾邮件”。 决策树的主要优势就在于数据形式非常容易理解。 构造的决策树算法能够读取数据集合,构建类似于图3-1的决策树。决策树的一个重要 任务是为了数据中所蕴含的知识信息,因此决策树可以使用不熟悉的数据集合,并从中提取出一系列规则,在这些机器根据数据集创建规则时,就是机器学习的过程。专家