DataWhale
文章平均质量分 77
Shepherd1701
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【2021.05--集成学习(下)-Task15】蒸汽预测案例
本次 DataWhale 第二十五期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning导入包import warningswarnings.filterwarnings("ignore")import matplotlib.pyplot as pltimport seaborn as sns# 模型import pandas as pd转载 2021-05-23 21:30:29 · 337 阅读 · 0 评论 -
【2021.05--集成学习(下)-Task14】幸福感预测案例
本次 DataWhale 第二十五期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearningimport osimport time import pandas as pdimport numpy as npimport seaborn as snsfrom sklearn.linear_model import LogisticRegressio转载 2021-05-18 18:39:38 · 508 阅读 · 0 评论 -
【2021.05--集成学习(下)-Task13】Stacking简单实践
本次 DataWhale 第二十五期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning上一次的任务中简单实践了blending,这一次任务将学习集成学习的最后一部分——stacking。具体原理可参见链接:https://www.cnblogs.com/Christina-Notebook/p/10063146.html# 载入数据from skl转载 2021-05-11 10:15:41 · 355 阅读 · 1 评论 -
【2021.05--集成学习(下)-Task12】blending简单实践
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一期的组队学习中介绍了Bagging和Boosting,现在简单学习下Stacking的方法,这个方法原理上没有那么依赖抽样的原理,理解上也相对较为容易,相关的原理介绍可以参考教程文档或者链接:https://blog.youkuaiyun.com/sinat_3582197转载 2021-05-10 17:16:34 · 174 阅读 · 0 评论 -
【2021.04--集成学习(中)-Task11】XGBoost与LightGBM
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning本次学习的任务是最常使用的模型之一——XGBoost,这个模型是在GDBT的基础上进行了工程上的一些优化,对模型及进行了一下推导上的理解,比如,用泰勒函数逼近损失函数,最佳分裂点的寻找等。补充参考文章有:XGBoost超详细推导:https://cloud.ten转载 2021-04-26 18:17:06 · 748 阅读 · 0 评论 -
【2021.04--集成学习(中)-Task10】梯度提升树
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning这一次的任务可以看作提升方法的下半部分,相较于李航老师的《统计学习方法》,跳过了AdaBoost算法的训练误差分析部分,同时补充了梯度提升树的案例(非常赞)。在书中的误差分析部分,可以知道训练误差可以被Zm{Z}_mZm控制住,同时,结合向前分步算法与AdaBoos转载 2021-04-23 12:21:15 · 249 阅读 · 0 评论 -
【2021.04--集成学习(中)-Task09】Boosting和AdaBoost的简单学习
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一次task中简单了解了bagging后,这一次对boosting进行简单的了解。这一次的组织提供的教程应该参考了李航的《统计学习方法》中第八章“提升方法”。书中首先引入了概率近似正确(PAC)学习的框架,同时也给出结论:强可学习与弱可学习是等价。这样一来,通过发转载 2021-04-19 17:31:47 · 198 阅读 · 0 评论 -
【2021.04--集成学习(中)-Task08】bagging介绍
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning首先我们理解下boostrap,这是一种抽样思想,他的核心思路如下图:bootstrap在小样本时效果很好,可以通过自身从重抽样估计真实分布。在bootstrap的基础上,在弱学习器的“准确性”和“多样性”上进行有侧重的关注:个体学习器间存在强依赖关系、必须串行生转载 2021-04-16 11:23:11 · 265 阅读 · 0 评论 -
【2021.03--集成学习(上)-Task07】投票法的原理和案例分析
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning在上一期的学习过程中,安排了部分基础模型的学习,为提升预测精度,可以进行模型集成,常见的思想有bagging、boosting和stacking。这一次任务先学习结合策略中的投票法。投票法是一种遵循少数服从多数原则的集成学习模型,通过多个模型的集成降低方差,从而提高转载 2021-04-15 00:48:23 · 295 阅读 · 0 评论 -
【2021.03--集成学习(上)-Task06】评估模型的性能并调参
(4) 评估模型的性能并调参:更详细的可以查看萌弟大佬的知乎:https://zhuanlan.zhihu.com/p/140040705import pandas as pdimport numpy as npfrom sklearn import datasetsiris = datasets.load_iris()X = iris.datay = iris.targetfeature = iris.feature_namesdata = pd.DataFrame(X,columns转载 2021-03-29 19:44:32 · 234 阅读 · 0 评论 -
【2021.03--集成学习(上)-Task05】使用sklearn构建完整的分类项目
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:[https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning](https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning)本次Task的任务是从回归问题过渡到分类的问题,使用大名鼎鼎的鸢尾花数据集。对于该数转载 2021-03-28 00:58:22 · 180 阅读 · 0 评论 -
【2021.03--集成学习(上)-Task04】对模型超参数进行调优
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:[https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning](https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning)Step5 对模型超参数进行调优(调参)在上一个任务中学习了方差和偏差理论,他是站转载 2021-03-24 10:28:10 · 263 阅读 · 0 评论 -
【2021.03--集成学习(上)-Task03】模型优化
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning优化基础模型(a)训练均方误差和测试均方误差在我们训练模型的时候,如果一味地提高对训练数据的预测能力,往往会出现模型的复杂度高于真实模型的情况,且在未知数据上预测得很差的现象,即为过拟合。比如说,任意n个点可以使用 n-1 次曲线进行拟合,这时的模型预测能力并转载 2021-03-23 00:38:53 · 385 阅读 · 0 评论 -
【2021.03--集成学习(上)】使用 sklearn 构建完整的机器学习项目流程
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning2 使用 sklearn 构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确项目任务:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。2.1 使用 sk转载 2021-03-19 00:49:11 · 375 阅读 · 0 评论 -
【2021.03--集成学习(上)】机器学习的三大主要任务
本次 DataWhale 第二十三期组队学习,其开源内容的链接为:https://github.com/datawhalechina/team-learning-data-mining/tree/master/EnsembleLearning1.导论1.机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。2.数据通常由一组向量组成,这组向量中的每个向量都是一个样本,同时每个样本包含特征,但不一定包含因变量。根据有无因变量,可以将机器学习分为有监督学习和无监督学习原创 2021-03-15 21:30:26 · 348 阅读 · 1 评论
分享