
决策树
WX Chen
实用技术总结,前沿科技分享,欢迎交流技术和业务
展开
-
分类算法 决策树
相比贝叶斯算法,决策树的优势在于构造过程不需要任何领域知识或参数设置,因此在实际应用中,对于探测式的知识发现,决策树更加适用。构造决策树的关键步骤是分裂属性。属性选择度量算法有很多,一般使用自顶向下递归分治法,并采用不回溯的贪心策略。这里介绍ID3和C4.5两种常用算法。ID3算法的核心思想就是以信息增益度量属性选择,选择分裂后信息增益最大的属性原创 2017-09-08 15:37:12 · 396 阅读 · 0 评论 -
C4.5算法的理解
C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 剪枝为了处理由于数据中的噪声和离群点导致的过分拟合问题。剪枝有两种: 先剪枝——在构造过程中,当某个节点满足剪枝条件,则直接停止此分支原创 2017-09-08 15:42:38 · 1721 阅读 · 0 评论 -
AdaBoost(Adaptive Boosting 自适应提升)算法
Boosting算法是一种把若干个分类器整合为一个分类器的方法,在boosting算法产生之前,还出现过两种比较重要的将多个分类器整合 为一个分类器的方法,即boostrapping方法和bagging方法。AdaBoost 是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器,即弱分类器,然后把这些弱分类器集合起来,构造一个更强的最终分类器。算法本身是改变数据分布原创 2017-09-08 15:46:30 · 1116 阅读 · 0 评论 -
分类与回归树(CART,Classification And Regression Tree)
分类回归树也属于一种决策树。分类回归树是一棵二叉树,且每个非叶子节点都有两个孩子。构建决策树时通常采用自上而下的方法,在每一步选择一个最好的属性来分裂。 "最好" 的定义是使得子节点中的训练集尽量的纯。不同的算法使用不同的指标来定义"最好"。本部分介绍一种最常见的指标。GINI指数:1、是一种不等性度量;2、通常用来度量收入不平衡,可以用来度量任何不均匀分布;原创 2017-09-08 15:48:43 · 3207 阅读 · 0 评论 -
随机森林(Random Forest)(RF)
RF的简单描述:RF通过Bagging的方式将许多个CART组合在一起,不考虑计算代价,通常树越多越好。RF中使用CART没有经过剪枝操作,一般会有比较大的偏差(variance),结合Bagging的平均效果可以降低CART的偏差。在训练CART的时候,使用有放回的随机抽取样本(bootstraping)、随机的抽取样本的特征、甚至将样本特征通过映射矩阵P投影到随机的子空间等原创 2017-09-08 15:50:27 · 672 阅读 · 0 评论 -
GBDT(Gradient Boosting Decision Tree 梯度提升/迭代树)算法
GBDT是将AdaBoost进行推广,误差函数(error function)扩展为任意的。GBDT(Gradient Boosting Decision Tree) 又叫 MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。GBDT主要由三个概念组成:Regre原创 2017-09-08 15:53:54 · 1011 阅读 · 0 评论 -
Apriori算法 (先验算法)
关联分析,即从一个数据集中发现项之间的隐藏关系。 Apriori算法主要是基于频繁集的关联分析。令项集I={i1,i2,...in}且有一个数据集合D,它其中的每一条记录T,都是I的子集那么关联规则都是形如A->B的表达式,A、B均为I的子集,且A与B的交集为空这条关联规则的支持度:support = P(A并B)这条关联规则的置信度:confide原创 2017-09-08 15:55:53 · 3461 阅读 · 0 评论