决策树是一种有监督(现有样本已知分类结果)的机器学习方法。它通过对已有样本的学习生成一颗决策树(可看成if-then规则集合),从而能对新样本作出相应分类。本文重点阐述如何选择特征建立决策树,并给出理解算法的具体实例。
一、什么是决策树
决策树:通过对已知样本的学习,一步一步将特征进行分类,从而将整个特征空间进行划分,进而区分出不同类别的算法。我们在逻辑判断中用到的思想if, else if ,else, then,其实就是决策树的思想。只是用哪个条件特征先做if,哪个条件后做if得到的结果会比较好呢?1970年,一名叫昆兰的大牛采用了信息论中的熵来度量最优特征选择。昆兰把这个算法称为ID3算法。该算法一出,它的简洁和高效就引起了轰动。
接下来我们详细介绍ID3算法。
二、ID3算法详解
1 什么是熵
熵度量了事物的不确定性,越不确定的事物,熵越大。随机变量X的熵公式如下: