学习目的:产生一棵泛化能力强决策树——“分而治之”
算法思想:1. 生成结点node
##2,3,4用来确定结点类别
2.if 样本集中包含样本全属于同一类别,node设为此类别(a,b,c,d,e都是好瓜)--->定此类别
3.if 当前属性集为空或者样本在所有属性上取值相同(a,b,c,d,e都是根蒂卷、色泽绿)--->定最多类别
4.if 当前结点样本为空--->定父节点类别
5.重新选择最优属性,迭代回去
那么,如何选择最优属性?
信息熵 Ent(D)越小,D的纯度越高--->信息增益 (ID3以此作为准则选择属性)
如何预防过拟合?--->剪枝处理
基本思路就是决策树不生成的那么深,到叶结点的父结点或者更靠近根结点的结点就停下,其依据是结构风险最小化原则。
预剪枝和后剪枝
连续属性怎么办?--->二分法
缺失数据怎么办?--->推广信息增益
推广--->多变量决策树