(四)机器学习——监督学习(supervised Learing)——决策树(Decision Tree)


1、机器学习中分类和预测算法的评估:

准确率、

速度、

强壮性(部分数据缺失情况,能否正确判断)、

可规模性(数据量变大,算法性能变化)、

可解释性(特征值和规律,是否能够进行解释)


2、决策树定义:类似于流程图的树结构,每个内部结点表示一个属性上的测试,每个分支代表一个属性输出,每个叶结点代表类或类分布。最顶层:根结点。


3、熵entropy

香农提出“信息熵”:

一条信息的信息量大小和它的不确定性有直接的关系——》信息量的度量等于不确定性的多少


每一个发生的概率 P(X)

变量的不确定性越大,熵也就越大。

4、 决策树归纳算法 ID3

1970-1980 J.Ross. Quinlan 

选择数据判断节点

信息获取量(Information Gain):Gain(A) = Info(D) - info_A(D)


14个实例,no 5个 yes 9ge

 

年轻人:5个: 3个 no; 2个 yes


5、贪心算法、自上而下

C4.5 gain ration

CART gini index

6、树剪枝叶(避免过拟合 overfitting)

先剪枝

后剪枝

7、优缺点:

优点:直观、便于理解、小规模数据集有效

缺点:处理连续变量不好

类别较多时,错误增加比较快。








评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值