决策树是一种比较流行的机器学习算法。它之所以如此流行,其中的一个重要原因就是它不需要了解机器学习的知识,就能搞明白决策树是如何工作的。
决策树经常被用来处理分类问题。那么它与之前讲过的k-近邻算法比起来,有什么优势呢?第一,k-近邻算法的时间复杂度高,执行效率比较低,但是决策树的时间复杂度不高。第二,k-紧邻算法无法给出数据的内在含义,但是决策树却可以给出数据的基础结构信息。所以,一般情况下,决策树比k-近邻算法更加适用。
决策树的工作原理很简单,与“20个问题”的游戏规则很相似:参与游戏的一方在脑海里想一个事物,其他玩家向他提问,问题的答案只能用对或错回答。问问题的人通过推断分析,逐步缩小待猜事物的范围。
下面给出一个简单的流程图形式的决策树帮助大家理解:
上面的流程图模拟了一个邮箱分类系统,它首先检查发件人的邮箱地址。如果地