-
决策树模型与学习
定义5.1(决策树):分类决策树模型是一种描述对实例进行分类的树形结构。决策树由结点和有向边组成。结点有两种类型:内部结点和叶结点。内部结点表示一个特征或属性,叶结点表示一个类。
用决策树分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分到叶结点的类中。
-
特征选择
随机变量X的熵定义为:
定义5.2(信息增益):特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
定义5.3(信息增益比):特征A对训练数据集D的信息增益比定义为其信息增益
与训练数据集D关于特征A的值的熵
之比,即:
其中,,n是特征A取值的个数。
-
决策树的生成