
【集成学习】
文章平均质量分 87
集成学习
数据闲逛人
18级双非本科学生
展开
-
【集成学习(下)】Task15 集成学习-案例 蒸汽量预测
文章目录集成学习案例二 (蒸汽量预测)背景介绍数据信息评价指标导入package加载数据探索数据分布小小个人总结特征工程模型构建以及集成学习进行模型的预测以及结果的保存参考集成学习案例二 (蒸汽量预测)背景介绍火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水原创 2021-05-22 20:36:02 · 318 阅读 · 0 评论 -
【集成学习(下)】Task14 幸福感预测 -案例分析1 (幸福感预测)
文章目录集成学习案例一 (幸福感预测)背景介绍数据信息评价指标导入package导入数据集查看数据的基本信息数据预处理数据增广特征建模模型融合结果保存总结参考集成学习案例一 (幸福感预测)背景介绍幸福感是一个古老而深刻的话题,是人类世代追求的方向。与幸福感相关的因素成千上万、因人而异,大如国计民生,小如路边烤红薯,都会对幸福感产生影响。这些错综复杂的因素中,我们能找到其中的共性,一窥幸福感的要义吗?另外,在社会科学领域,幸福感的研究占有重要的位置。这个涉及了哲学、心理学、社会学、经济学等多方学科的话转载 2021-05-18 14:56:02 · 447 阅读 · 0 评论 -
【集成学习(下)】Task13 Stacking
基于前面对Blending集成学习算法的讨论,我们知道:Blending在集成的过程中只会用到验证集的数据,对数据实际上是一个很大的浪费。为了解决这个问题,我们详细分析下Blending到底哪里出现问题并如何改进。在Blending中,我们产生验证集的方式是使用分割的方式,产生一组训练集和一组验证集,这让我们联想到交叉验证的方式。顺着这个思路,我们对Stacking进行建模(如下图):首先将所有数据集生成测试集和训练集(假如训练集为10000,测试集为2500行),那么上层会进行5折交叉检验,使用训练原创 2021-05-12 22:11:15 · 5156 阅读 · 6 评论 -
【集成学习(下)】Task 12 Blending学习笔记
1. 导言在前几个章节中,我们学习了关于回归和分类的算法,同时也讨论了如何将这些方法集成为强大的算法的集成学习方式,分别是Bagging和Boosting。本章我们继续讨论集成学习方法的最后一个成员–Stacking,这个集成方法在比赛中被称为“懒人”算法,因为它不需要花费过多时间的调参就可以得到一个效果不错的算法,同时,这种算法也比前两种算法容易理解的多,因为这种集成学习的方式不需要理解太多的理论,只需要在实际中加以运用即可。 stacking严格来说并不是一种算法,而是精美而又复杂的,对模型集成的一种原创 2021-05-11 09:19:33 · 163 阅读 · 0 评论 -
【集成学习(中)】My Task11_XGBoost算法分析与案例调参实例 笔记
1.XGBoost算法XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。XGBoost本质上还是一个GBDT,但是力争把速度和效率发挥到极致,所以叫X (Extreme) GBoosted,包括前面说过,两者都是boosting方法。XGBoost是一个优化的分布式梯度增强库,旨在实现高效,灵活和便携。 它在Gradient Boosting框架下实现机器学习算法。 XGBo转载 2021-04-26 09:32:00 · 489 阅读 · 0 评论 -
【集成学习(中)】 My _Task10向前分步算法与梯度提升决策树 笔记
文章目录4.前向分步算法5. 梯度提升决策树(1) 基于残差学习的提升树算法:(2) 梯度提升决策树(GBDT) :参考b(x;γm)b\left(x ; \gamma_{m}\right)b(x;γm) : 基本分类器γm\gamma_{m}γm : 基本分类器的参数βm\beta_mβm : 基本分类器的权重L(y,f(x))L(y, f(x))L(y,f(x)) : 损失函数f(x)转载 2021-04-23 22:14:00 · 147 阅读 · 0 评论 -
My Task09 Boosting的思路与Adaboost算法 笔记
文章目录1.导论2.Boosting方法的基本思路3. Adaboost算法总结:数学家太强了,respect1.导论Bagging思想的实质是:通过Bootstrap 的方式对全样本数据集进行抽样得到抽样子集,对不同的子集使用同一种基本模型进行拟合,然后投票得出最终的预测。我们也从前面的探讨知道:Bagging主要通过降低方差的方式减少预测误差。那么,本章介绍的Boosting是与Bagging截然不同的思想,Boosting方法是使用同一组数据集进行反复学习,得到一系列简单模型,然后组合这些模型构成原创 2021-04-18 11:36:51 · 271 阅读 · 1 评论 -
【集成学习(中)】My_Task08 bagging的原理和案例分析 笔记
bagging的思路与投票法不同的是,Bagging不仅仅集成模型最后的预测结果,同时采用一定策略来影响基模型训练,保证基模型可以服从一定的假设。在上一章中我们提到,希望各个模型之间具有较大的差异性,而在实际操作中的模型却往往是同质的,因此一个简单的思路是通过不同的采样增加模型的差异性。bagging的原理分析bagging的案例分析(基于sklearn,介绍随机森林的相关理论以及实例)Sklearn为我们提供了 BaggingRegressor 与 BaggingClassifier 两种Bag转载 2021-04-15 16:55:34 · 159 阅读 · 0 评论 -
【集成学习(中)】My Task07_投票法的原理和案例分析 笔记
投票法的思路一个零件发送电信号偶尔会出错,但是可以通过重复多次发送数据,以少数服从多数据的方法来确定正确的传输数据,毕竟出错的概率一般比较低拓展开来:回归模型: 投票法最终的预测结果,其他回归模型预测结果的平均值分类模型:硬投票法的预测结果是频数最多,即多个模型预测中出现次数最多的类别软投票对各类预测结果的概率进行求和,最终选取概率之和最大的类标签 (这里的各类应该是指多个模型–>得到多个模型对不同类型的预测概率)投票法的原理分析投票法是一种遵循少数服从多数原则的集成学习模型原创 2021-04-14 19:04:43 · 265 阅读 · 0 评论 -
【集成学习(上)】My_Task06_掌握分类问题的评估及超参数调优 笔记
文章目录评估模型的性能并调参:当类别为两类时,可以绘制混淆矩阵与ROC曲线评估模型的性能并调参:更详细的可以查看大佬的知乎:https://zhuanlan.zhihu.com/p/140040705from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.target# 使用网格搜索进行超参数调优:# 方式1 : 网格搜索GridSearchCV()from sklearn.model_se原创 2021-04-11 21:24:23 · 224 阅读 · 2 评论 -
【集成学习(上)】 My Task05_掌握基本的分类模型 笔记
使用sklearn构建完整的分类任务(1)用鸢尾花数据集来作为实例实践import pandas as pd from sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns=feature)各个特征的相关解释:sepal length (cm):花萼长度(厘米)se原创 2021-04-11 17:04:40 · 153 阅读 · 0 评论 -
【集成学习(上)】My_Task04掌握回归模型的评估及超参数调优 笔记
参数与超参数参数:通过模型训练得到,无需人为设置的是参数,像线性回归中的 y=ax+b 中的a非参数:需要人为设置,例如 lgbm等与决策树相关的模型num_leaves的参数超参数优化网格搜索GridSearchCV():网格搜索:https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html?highlight=gridsearchcv#sklearn.model_se原创 2021-04-10 21:55:08 · 163 阅读 · 0 评论 -
【集成学习(上)】My_Task03掌握偏差与方差理论 笔记
文章目录(4) 优化基础模型(4) 优化基础模型特征提取的实例:向前逐步回归案例来源:https://blog.youkuaiyun.com/weixin_44835596/article/details/89763300根据AIC准则定义向前逐步回归进行变量筛选#定义向前逐步回归函数def forward_select(data,target): variate=set(data.columns) #将字段名转换成字典类型 variate.remove(target) #去掉因变量的字原创 2021-03-22 22:14:35 · 233 阅读 · 0 评论 -
【集成学习(上)】My_Task02 掌握基本的回归模型 笔记
文章目录2.1 使用sklearn构建完整的回归项目线性回归模型的损失函数解释小结回归树与线性模型的比较:小结相比于决策树模型,随机森林模型为何能实现更好的效果?参考:2.1 使用sklearn构建完整的回归项目from sklearn import datasetsimport pandas as pdboston = datasets.load_boston() # 返回一个类似于字典的类X = boston.data # 取出特征 y = boston.原创 2021-03-18 16:56:12 · 168 阅读 · 0 评论