《统计学习方法》学习笔记（第五章）

最新推荐文章于 2022-07-03 01:55:21 发布

Hhhhuply

最新推荐文章于 2022-07-03 01:55:21 发布

阅读量539

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习文章标签：学习笔记

本文链接：https://blog.youkuaiyun.com/Hhhhuply/article/details/88553657

本文介绍了决策树的学习方法，重点讲解了ID3算法（基于信息增益）、C4.5（基于信息增益比）和CART（基于Gini指数）算法。通过理解熵、信息增益、信息增益比和Gini指数，阐述了决策树的构建过程。同时提到了静态方法在Python中的应用，并讨论了Graphviz的安装与配置问题，以及如何为Python加载Graphviz库。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第5章决策树

ID3算法（基于信息增益）

entropy（信息熵）： $-\sum_{i=1}^{n}p_i\log{p_i}$

#熵
def calc_ent(datasets):
    data_length = len(datasets)
    #类别是/否
    label_count = {}
    for i in range(data_length):
        label = datasets[i][-1]
        if label not in label_count:
            label_count[label] = 0
        label_count[label] += 1
    ent = -sum([(p/data_length)*log(p/data_length,2)for p in label_count.values()])
    return ent

conditional entropy（条件熵）: $H(X|Y)=\sum{P(X|Y)}\log{P(X|Y)}$