参考文档:
https://blog.youkuaiyun.com/crossoverpptx/article/details/131305937
https://blog.youkuaiyun.com/m0_70299075/article/details/142923631
https://www.bilibili.com/video/BV1xS4y1w7GJ?spm_id_from=333.788.videopod.episodes&vd_source=9353473e5d1730d31a40605ca715aec6&p=14
https://www.bilibili.com/video/BV1Ry4y1T7bg/?spm_id_from=333.337.search-card.all.click&vd_source=9353473e5d1730d31a40605ca715aec6
**
熵
**
到叶子节点处,熵值为0
信息增益
这里应该写错了,应该是0.998-0.617
但信息增益存在一个问题,假如数据中有索引项,则根据索引项去划分得到的信息增益是最大的,但实际上没有任何用,所以ID3基本不会用到
信息增益率
基尼指数
cart肯定是一个二叉树,一般进行分类时分为属于该类和不属于该类两大类
选择其中基尼指数最小的作为分类标准
代码实现: