
决策树
haoyutiangang
这个作者很懒,什么都没留下…
展开
-
决策树系列-目录
决策树系列1:聊聊信息熵决策树系列2:决策树是何许人也决策树系列3:信息增益、增益率、基尼系数 (史上最详尽)决策树系列4:随机森林 (三个臭皮匠顶个诸葛亮)决策树系列5:AdaBoost 竟如此简单决策树系列6:XGBoost, 机器学习的大杀器...原创 2020-03-17 20:49:43 · 441 阅读 · 0 评论 -
决策树系列6:XGBoost, 机器学习的大杀器
引言XGBoost 自诞生以来,就屡次在国际机器学习大赛中摘取桂冠,风头隐隐有超过深度学习之势,堪称机器学习的"大杀器"。今天我们就来揭开 XGBoost 的神秘面纱,瞧瞧它的庐山真面目。一、XGBoost 简介XGBoost 跟上一篇的 AdaBoost 都属于集成学习的范畴,即利用多个弱学习器组成最终的强学习器。说到 XGBoost 不得不提 GBDT(Gradient Boosti...原创 2020-03-15 20:38:32 · 486 阅读 · 0 评论 -
决策树系列5:AdaBoost 竟如此简单
引言AdaBoost 其实很简单,就像我们参加模拟考试。比如我们高考前要模拟考试10次,每次模拟完都需要分析各科的强弱,然后有针对性的复习,提升弱势科目,准备下一次模拟考试。第一次考完发现物理化学较弱,复习时就给物理化学多一些时间。第二次发现物理化学上去了,数学又相对较弱,复习时就多给数学一些时间。依次类推,每次把相对较弱的科目多用些时间。通过这十次模拟考试,相信我们的综合成绩会有...原创 2020-03-12 20:54:37 · 617 阅读 · 1 评论 -
决策树系列4:随机森林 (三个臭皮匠顶个诸葛亮)
引言想了解一个人的人品一般询问多个熟悉他的人,而不是只问一个人,毕竟一个人的评价难免有失偏颇。对于决策树也是一样,单一的决策树有时候会过拟合,有时候效果不太理想。而随机森林就是利用多棵决策树共同做决策。毕竟三个臭皮匠顶个诸葛亮嘛。随机森林随机森林主要利用了 bagging 的思想,也就是多个学习器并行学习,共同预测结果。随机森林有多棵决策树,每棵决策树并行独立训练。预测时每个决策树都预测...原创 2020-03-11 19:01:07 · 1286 阅读 · 0 评论 -
决策树系列3:信息增益、增益率、基尼系数 (史上最详尽)
引言上回说道,决策树最核心的部分是如何选择最优划分属性,今天我们看看经典的三种最优划分算法。本次内容是决策树的核心,《大数据茶馆》力求做到通俗的前提下推导细致、循序渐进、全程举例,希望可以帮助大家彻底理解这三种方法的来龙去脉。决策树回顾上一篇文章的例子中,小明和小亮根据各个属性判断是否适合打球列了表格,并给出了一棵决策树。如上篇文章所说,第一个节点选择场地进行分支划分一下子决策了...原创 2020-03-09 17:18:49 · 28587 阅读 · 5 评论 -
决策树系列2:决策树是何许人也
引言今天的《大数据茶馆》我们来聊聊决策树是何许人也。它能解决什么问题,是怎么解决这些问题的?从一个例子说起放暑假了,小明和小亮约了每天下午一起打网球,但是由于一些原因,有些天他们并没有成行。今天他们把这几天的情况和是否适合打球列了一张表格。希望从这张表格中可以找到一个综合各个因素得出是否适合打球的规律,这样今后约球时只需把各个因素输入进去,就知道是否适合打球而不需要纠结思考了。从这个...原创 2020-03-08 17:13:18 · 676 阅读 · 0 评论 -
决策树系列1:聊聊信息熵
引言这是《大数据茶馆》的第一篇文章,既然要聊决策树,就绕不开信息熵,一般决策树说到熵的时候都会说熵是反映事件的不确定性,然后给出下面这个公式。−∑i=1np(x) log q(x)\\- \sum_{i=1}^n p(x)\,log\,q(x) −i=1∑np(x)logq(x)但这个公式的原理是什么,应该怎么理解,负号又是怎么回事?今天这篇文章,我们就一起聊聊到底什么是信息熵,希望可...原创 2020-03-08 16:43:05 · 1188 阅读 · 1 评论