目录
决策树
认识决策树
决策树思想的来源非常朴素,程序设计中的条件分支结构就是if-then结构,最早的决策树就是利用这类结构分割数据的一种分类学习方法——不是这个,就是那个。
决策树的生成
信息的单位——比特
32只球队,预测冠军是谁?
32支球队,log32=5比特,以2为底
64支球队,log64=6比特
信息熵
“谁是世界杯冠军”的信息量应该比5比特少。香农指出,它的准确信息量应该是:
H的专业术语称之为信息熵,单位为比特。
当这32支球队夺冠的几率相同,不知道任何一个球队的信息时,对应的信息熵等于5比特。
但实际情况,可以得到一些信息,猜冠军球队的代价减少,信息熵减少。
信息和消除不确定性是相联系的。
决策树的划分依据之一——信息增益
哪个特征更重要?
信息增益:得知一个特征条件之后,减少的信息熵大小。
特征A对训练数据集D的信息增益g(D,A),定义为集合D的信息熵H(D)与特征A给定条件下D的信息条件熵H(D|A)之差,即公式为:
注:信息增益表示得知特征X的信息而使得类Y的信息的不确定性减少的程度
信息熵H(D)的计算: