
sklearn--集成学习(理论)
ghyyys
这个作者很懒,什么都没留下…
展开
-
sklearn--集成学习(理论)
【转】目录1 前言 2 集成学习是什么? 3 偏差和方差 3.1 模型的偏差和方差是什么? 3.2 bagging的偏差和方差 3.3 boosting的偏差和方差 3.4 模型的独立性 3.5 小结 4 Gradient Boosting 4.1 拟合残差 4.2 拟合反向梯度 4.2.1 契机:引入损失函数 4.2.2...转载 2018-09-04 16:23:24 · 332 阅读 · 0 评论 -
前言
sklearn提供了sklearn.ensemble库,支持众多集成学习算法和模型。恐怕大多数人使用这些工具时,要么使用默认参数,要么根据模型在测试集上的性能试探性地进行调参(当然,完全不懂的参数还是不动算了),要么将调参的工作丢给调参算法(网格搜索等)。这样并不能真正地称为“会”用sklearn进行集成学习。 我认为,学会调参是进行集成学习工作的前提。然而,第一次遇到这些算法和模型时,肯定...转载 2018-09-04 16:27:02 · 130 阅读 · 0 评论 -
集成学习是什么?
、 简单来说,集成学习是一种技术框架,其按照不同的思路来组合基础模型,从而达到其利断金的目的。 目前,有三种常见的集成学习框架:bagging,boosting和stacking。国内,南京大学的周志华教授对集成学习有很深入的研究,其在09年发表的一篇概述性论文《Ensemble Learning》对这三种集成学习框架有了明确的定义,概括如下: bagging:从训练集从进行子抽样...转载 2018-09-04 16:38:25 · 1323 阅读 · 0 评论 -
模型的偏差和方差
1、基本概念 广义的偏差(bias)描述的是预测值和真实值之间的差异,方差(variance)描述距的是预测值作为随机变量的离散程度。2、模型的偏差和方差模型的偏差是一个相对来说简单的概念:训练出来的模型在训练集上的准确度。 要解释模型的方差,首先需要重新审视模型:模型是随机变量。设样本容量为n的训练集为随机变量的集合(X1, X2, …, Xn),那么模型是以这些随机变量...转载 2018-09-04 16:49:56 · 1458 阅读 · 0 评论