首先查看数据集
我们用这个数据集来构造决策树,判断一个新的西瓜是否为好瓜。
决策树的构造
计算数据集的信息熵
首先观察数据集DDD,发现数据集DDD中有好瓜和坏瓜两个类别,其中好瓜占比p1=817p_1=\frac {8}{17}p1=178,坏瓜占比p2=917p_2=\frac {9}{17}p2=179,计算出数据集DDD的信息熵为
Ent(D)=−∑k=12pklog2pk=−(817log2817+917log2917)=0.998Ent(D)=-\sum_{k=1}^{2}p_klog_2p_k=-(\frac{8}{17}log_2\frac{8}{17}+\frac{9}{17}log_2\frac{9}{17})=0.998Ent(D)=−k=1∑2pklog2pk=−(178log217</