
集成学习与Kaggle
文章平均质量分 92
一起打kaggle呀
山顶夕景
互联网大厂AI算法工程师。实践出真知。
展开
-
解决报错OSError: dlopen(../anaconda/envs/python3/lib/python3.6/site-packages/lightgbm/lib_lightgbm.so)
一、问题描述在mac上pip install lightgbm后报错如下:OSError: dlopen(…/anaconda/envs/python3/lib/python3.6/site-packages/lightgbm/lib_lightgbm.so, 6): Library not loaded: /usr/local/opt/gcc/lib/gcc/7/libgomp.1.dylibReferenced from: …/anaconda/envs/python3/lib/python3.6原创 2022-04-20 22:24:42 · 5972 阅读 · 2 评论 -
【集成学习】(task1)机器学习中的数学(史上最全)
学习资源(1)集成学习——b站视频;机器学习的数学基础——b站视频(2)在很多机器学习比赛(如kaggle等),会发现除了深度学习以外的高分模型,无一例外地见到了集成学习和模型融合的身影。所有我们有必要从基础模型的推导以及 sklearn应用过渡到使用集成学习的技术去优化我们的基础模型,使得我们的模型能更好地解决机器学习问题。文章目录学习资源一、随机过程1.1 随机过程的基本概念1.2 Poisson过程(1) 计数过程(2)泊松过程(3)呼叫泊松流(4)泊松过程的汇合和分流1.3 Markov过程(原创 2021-09-13 21:23:24 · 1153 阅读 · 1 评论 -
【集成学习】(task2)各类回归问题建模&原理
学习总结(1)文章目录学习总结1.导论1.1 回归1.2 分类1.3 无监督学习2. 使用sklearn构建完整的机器学习项目流程2.1 使用sklearn构建完整的回归项目2.2 使用sklearn构建完整的分类项目3.结语1.导论什么是机器学习?机器学习的一个重要的目标就是利用数学模型来理解数据,发现数据中的规律,用作数据的分析和预测。数据通常由一组向量组成,这组向量中的每个向量都是一个样本,我们用xix_ixi来表示一个样本,其中i=1,2,3,...,Ni=1,2,3,...,Ni=1,2原创 2021-09-18 23:13:33 · 1088 阅读 · 0 评论 -
【集成学习】(task3)偏差和方差理论
学习心得(1)文章目录学习心得对模型超参数进行调优(调参):Reference对模型超参数进行调优(调参):在刚刚的讨论中,我们似乎对模型的优化都是对模型算法本身的改进,比如:岭回归对线性回归的优化在于在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数λ\lambdaλ应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数λ\lambdaλ?事实上,找到最佳参数的问题本质上属于最优化的原创 2021-09-22 21:28:17 · 820 阅读 · 2 评论 -
【集成学习】(task4)分类问题(逻辑回归、概率分类、决策树、SVM)(更新ing)
学习心得(1)(2)文章目录学习心得使用sklearn构建完整的分类项目(1) 收集数据集并选择合适的特征:(2) 选择度量模型性能的指标:(3) 选择具体的模型并进行训练一、逻辑回归logistic regression:二、基于概率的分类模型:(1) 线性判别分析:基于贝叶斯公式对线性判别分析的理解:降维分类的思想理解线性判别分析:(2) 朴素贝叶斯:三、决策树 :四、支持向量机SVM:五、非线性支持向量机:Reference使用sklearn构建完整的分类项目(1) 收集数据集并选择合适的特原创 2021-09-26 23:01:48 · 1124 阅读 · 0 评论 -
【树模型与集成学习】(task1)决策树(上)
文章目录一、信息论基础二、分类树的节点分裂三、CART树四、决策树的剪枝五、作业1. ID3树算法、C4.5树算法和CART算法之间有何异同?2. 什么是信息增益?它衡量了什么指标?它有什么缺陷?3. sklearn决策树中的random_state参数控制了哪些步骤的随机性?4. 决策树如何处理连续变量和缺失变量?5. 基尼系数是什么?为什么要在CART中引入它?6. 什么是树的预剪枝和后剪枝?具体分别是如何操作的?Reference六、时间规划教程第一章内容,掌握节点分类指标的引入原因、定义和计算,掌原创 2021-10-14 14:43:48 · 933 阅读 · 0 评论 -
【树模型与集成学习】(task2)代码实现CART树(更新ing)
学习心得文章目录学习心得一、CART算法流程二、Reference一、CART算法流程二、Reference(1)CART决策树(Decision Tree)的Python源码实现(2)https://github.com/RRdmlearning/Decision-Tree(3)《机器学习技法》—决策树...原创 2021-10-17 23:18:55 · 766 阅读 · 0 评论 -
【树模型与集成学习】(task3)集成模式(更新ing)
学习总结(1)任务:理解泛化误差分解的过程,掌握bagging的性质,掌握四种集成模式的工作流程。集成模式一章前三节的侧边栏练习,知识回顾前三题,实现stacking和blending。(2)文章目录学习总结一、集成的原因二、bagging与boosting三、stacking与blending四、两种并行集成的树模型4.1 随机森林4.2 孤立森林五、作业Reference一、集成的原因我们在有限数据上训练模型,再用模型去预测新的数据,并期望在新数据上得到较低的预测损失,这里的预测损失可以指分原创 2021-10-21 00:11:55 · 803 阅读 · 0 评论 -
【树模型与集成学习】(task4)两种并行集成的树模型
学习总结文章目录学习总结一、二、Reference【内容概要】理解随机森林的训练和预测流程,特征重要性和oob得分计算,孤立森林的原理以及训练和预测流程【打卡内容】侧边栏练习,知识回顾后三题,实现孤立森林算法和用于分类的随机森林算法(可以用sklearn的决策树或task2中自己实现的分类cart树)一、二、Reference(1)https://datawhalechina.github.io/machine-learning-toy-code/index.html...原创 2021-10-25 00:25:23 · 1373 阅读 · 1 评论 -
【树模型与集成学习】(task5)自适应提升法AdaBoost(更新ing)
学习总结上次task的两种并行集成的树模型(随机森林和孤立森林)都是属于Bagging模型,而这个task是学习Boosting的Adaboost模型(既可以作分类也可以作回归),用其处理分类和回归任务的算法原理,包括SAMME算法、SAMME.R算法和Adaboost.R2算法。Boosting算法的工作机制是首先从训练集用初始权重训练出一个弱学习器1,根据弱学习的学习误差率表现来更新训练样本的权重,使得之前弱学习器1学习误差率高的训练样本点的权重变高,使得这些误差率高的点在后面的弱学习器2中得到更原创 2021-10-31 02:04:40 · 872 阅读 · 2 评论 -
【树模型与集成学习】(task6)梯度提升树GBDT+LR
学习总结(1)不同问题的提升树学习算法,主要区别在于使用的损失函数不同,如用平方误差损失函数的回归问题、用指数损失函数的分类问题、用一般损失函数的一般决策问题等。(2)由于GBDT是利用残差训练的,在预测的过程中,我们也需要把所有树的预测 值加起来,得到最终的预测结果。【内容概要】Part D第一节和第二节【打卡内容】侧边栏练习,知识回顾,实现gbdt的分类树和回归树文章目录学习总结一、用于回归的GBDT1.1 函数空间的优化问题1.2 学习率1.3 另一个角度二、用于分类的GBDT2.1 拟合的原创 2021-11-03 16:21:40 · 861 阅读 · 0 评论 -
【树模型与集成学习】(task7)XGBoost和LightGBM(更新ing)
学习总结(1)文章目录学习总结一、XGBoost算法(1)XGBoost的特值处理:(2)单个样本的损失函数二、LightGBM算法(1)单边梯度采样 GOSS(2)互斥特征绑定 EFB三、作业3.1 XGBoost和GBDT树有何异同?3.2 叙述LightGBM中GOSS和EFB的作用及算法流程。Reference一、XGBoost算法由于树模型较强的拟合能力,我们需要对模型进行正则约束来控制每轮模型学习的进度,除了学习率参数之外,XGBoost还引入了两项作用于损失函数的正则项:首先我们希望树原创 2021-11-07 23:28:43 · 832 阅读 · 7 评论 -
【树模型与集成学习】(task8)阶段性总结(更新ing)
学习总结作业需要继续补!task1学习决策树基础,根据评价标准为信息增益、信息增益比、基尼指数分别分为ID3树,C4.5树和CART树task2学习cart的分类和回归代码task3基于偏差和方差理论,分为bagging和boosting两种组合基分类器的方法,另外staking和blending是两种根据数据集的划分进行训练的方法task4学习两种并行集成的树模型,随机森林(基于投票)和孤立森林(可用于异常检测)task5学习Adaboost自适应提升法,每轮提高前一轮弱分类器错误分类样本的权原创 2021-11-09 00:04:51 · 862 阅读 · 0 评论