打卡西瓜书2——第四章 决策树

学习目的:产生一棵泛化能力强决策树——“分而治之”

算法思想:1. 生成结点node

                 ##2,3,4用来确定结点类别

                  2.if 样本集中包含样本全属于同一类别,node设为此类别(a,b,c,d,e都是好瓜)--->定此类别

                  3.if 当前属性集为空或者样本在所有属性上取值相同(a,b,c,d,e都是根蒂卷、色泽绿)--->定最多类别

                  4.if 当前结点样本为空--->定父节点类别

                  5.重新选择最优属性,迭代回去

那么,如何选择最优属性?

信息熵 Ent(D)越小,D的纯度越高--->信息增益 (ID3以此作为准则选择属性)

如何预防过拟合?--->剪枝处理 

基本思路就是决策树不生成的那么深,到叶结点的父结点或者更靠近根结点的结点就停下,其依据是结构风险最小化原则。
​ 预剪枝和后剪枝

连续属性怎么办?--->二分法

缺失数据怎么办?--->推广信息增益

推广--->多变量决策树

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值