决策树

机器学习中分类和预测算法的评估:

准确率

速度

强壮性:有噪声可以不受干扰

可规模性:数据特别大(指数级增长)的能够继续使用

可解释性:当我们算法对特征值的选择和归类的时候,能够非常容易解释我们学习出来的模型

 

 

 

 

                               决策树(分类算法)

决策树是一个类似于流程图的树结构:其中,每个内部节点表示在一个属性上的测试,每个分支比哦啊是一个属性的输出,而每个数叶节点代表类或类分布。数的最顶层是根节点

 

 

 

信息熵:信息量的度量就等于不确定的多少(单位bit)

             变量的不确定性越大,熵也就越大

   

 

 

 

1、决策树归纳算法(ID3)

选择属性判断节点

 

信息获取量(infomation Gain):

Gain(A) = info(D)- info_A(D)

通过A来作为节点分类获取了多少信息

 

info_age(D)是按照年龄为分类方法取得的信息量

 

 

 

 

                    决策树的创建过程

1、树以代表训练样本的单个节点开始

2、如果样本都在同一个类,则该节点为树叶,并用该类标号

3、否贼,算法使用成为信息增益的基于熵的度量作为启发信息,选择能够最好的样本分类属性。该属性成为该节点的 ‘测试’或‘判定’属性。在算法的该版本中

4、所有的属性都是分类的,即离散值。连续属性离散化。

5、对测试属性的每个已知的值,创建一个分支,并据此划分样本

6、算法使用同样的构成,递归形成分割划分上的样本判定树。一旦一个属性出现在一个节点上,就不必该节点的任何后代上考虑他。

7、递归划分步骤仅当下列条件之一成立停止:

a、给定节点的所有样本属于同一类

b、没有剩余属性可以用来进一步划分样本。在此情况下,使用多数表决

      这涉及将给定的结点转换成树叶,并用样本中的多数所在的类标记它。替换的,可以存放节点样本的类分布

c、分支test_attribute =a ,没有样本。在这种情况下,以samples中的多数类创建一个树叶

 

 

 

 

其他算法:C4.5 , CART

共同点:贪心算法,自上而下

区别:属性选择度量方法不同C4.5(Gain ratio),CART(Gain index) ID3(Infomation Gain)

 

 

                   如何处理连续性变量的属性

1、树剪枝叶(避免overfitting)

    1.1 先剪枝

    1.2 后剪枝

 

2、决策树的优点:

    直观,便于理解,小规模数据集有效

 

3、决策树的缺点:

    处理连续变量不好

    类别较多时,错误增加的比较快

    可规模性一般

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值