
机器学习-集成学习
文章平均质量分 95
村头陶员外
B站,小红书,抖音等平台搜索 “Forrest的数据科学站”
展开
-
机器学习-->集成学习-->Bagging,Boosting,Stacking
在一些数据挖掘竞赛中,后期我们需要对多个模型进行融合以提高效果时,常常会用到Bagging,Boosting,Stacking等这几个框架算法。下面就来分别详细讲述这三个框架算法。这里我们只做原理上的讲解,不做数学上推导。集成学习在机器学习算法中具有较高的准去率,不足之处就是模型的训练过程可能比较复杂,效率不是很高。目前接触较多的集成学习主要有2种:基于Boosting的和基于Bagging,前者的原创 2017-06-09 14:56:28 · 23861 阅读 · 4 评论 -
机器学习-->集成学习-->决策树详解
本篇博文将详细总结决策树原理,从最基本的数学公式一步步的推导。将沿着以下几个主题来总结讨论信息熵 熵,联合熵,条件熵,互信息决策树学习算法 信息增益 ID3,C4.5,CART防止过拟合 预剪枝 随机森林决策树连续值处理和回归预测 连续值处理 回归预测 对输出的决策树回归信息熵熵的定义:如果P表示数据样本X,那么n表示对应的标签类别数目,表示第i类的数据样本数量占总体数据原创 2017-07-28 17:01:38 · 2214 阅读 · 0 评论 -
机器学习-->集成学习-->Adaboost
本篇博文主要总结关于Adaboost的相关内容。设训练数据集T={(x1,y1), (x2,y2)…(xN,yN)} 初始化训练数据的权值分布 :对于m=1,2,…M:使用具有权值分布Dm的训练数据集学习,得 到基本分类器Gm(x)表示第m次生成的基本分类器,这个基本分类器可以是逻辑回归,可以是SVM等等都可以。计算Gm(x)在训练数据集上的分类误差率 计算Gm(x)的系数 显然误差率越小,原创 2017-07-31 16:33:48 · 548 阅读 · 0 评论 -
机器学习-->集成学习-->GBDT,RandomForest
本篇博文总仔细总结GBDT,RandomForest原理。Boosting(提升)提升是一个机器学习技术,可以用于回归和分类问 题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生 成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting)。 梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数),即自变量就是原创 2017-06-10 13:29:49 · 2026 阅读 · 0 评论 -
机器学习-->集成学习-->Xgboost详解
本篇博文将详细总结集成学习里面的一个非常重要的模型,xgboost。Boosting(提升)提升是一个机器学习技术,可以用于回归和分类问 题,它每一步产生一个弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型生 成都是依据损失函数的梯度方向,则称之为梯度提升(Gradient boosting)。 梯度提升算法首先给定一个目标损失函数,它的定义域是所有可行的弱函数集合(基函数),即原创 2017-07-31 10:06:20 · 3308 阅读 · 0 评论 -
机器学习-->集成学习-->Xgboost,GBDT,Adaboost总结
之前的博文中已经深入详细的总结了集成学习中各种提升方法,包括Xgboost,GBDT,Adaboost。本篇博文将把这三种最常见的提升方法串在一起,大概的总结下三者的区别和联系。所有总结都是我个人的看法,如有不对还望指正。相同点三者的相同点,显然都是利用了提升的思想,每一棵树的生成都是建立在上一棵树的基础之上。 细节方法,都有一些预剪枝,正则项,衰减因子,降采样等等。详细的请看之前的博文。不同点A原创 2017-08-01 11:43:07 · 2007 阅读 · 0 评论