
机器学习
文章平均质量分 78
麻瓜与AI奇遇记
国家一级拖延症代表,著名退堂鼓表演艺术家。
展开
-
Blending集成学习算法
1.Blending流程图下面我们来详细讨论下这个Blending集成学习方式:将数据划分为训练集和测试集(test_set),其中训练集需要再次划分为训练集(train_set)和验证集(val_set);创建第一层的多个模型,这些模型可以使同质的也可以是异质的;使用train_set训练步骤2中的多个模型,然后用训练好的模型预测val_set和test_set得到val_predict, test_predict1;创建第二层的模型,使用val_predict作为训练集训练第二层的模型;原创 2021-05-11 21:36:21 · 424 阅读 · 0 评论 -
XGBoost算法分析与案例调参实例
kjnjnklm原创 2021-04-26 22:36:36 · 186 阅读 · 0 评论 -
向前分步算法与梯度提升决策树
在Adaboost算法中,最终的目的是构建弱分类器的线性组合:$f(x)=\sum_{t=1}^{T} \alpha_{t} h_t(x)$得到最终的学习器。于是我们来看一下加法模型:$f(x)=\sum_{i=m}^{M} \beta_{m}b(x;\gamma_m)$$b(x;\gamma_{m})$ 是基函数,$\beta_{m}$ 是基函数的系数,$\gamma_{m}$为基函数的参数。显然Adaboost是一个加法模型在给定训练数据及损失函数 $L(y, f(x))$ 时,原创 2021-04-23 22:13:56 · 220 阅读 · 0 评论 -
Boosting的思路与Adaboost算法
Boosting的思路与Adaboost算法Boosting的思路:在PAC学习的框架下,强可学习和弱可学习是等价的,即一个概念是强可学习的充分必要条件是这个概念是弱可学习的。那么问题来了,在学习中,我们已经发现了弱可学习算法,那么我们能否将其升级为强可学习算法呢?...原创 2021-04-20 18:56:55 · 277 阅读 · 0 评论 -
集成学习之投票法的原理及案例分析
投票法的原理及案例分析投票法的思路:投票法可以根据权重,或者直接平均,将模型的预测结果进行融合。一般情况下进行多次预测,错误总是发生在局部,此时我们可以遵循多数服从少数的原则,因此融合多个数据是降低误差的一个好方法,这就是投票法的基本思路。投票法可以帮助我们提高模型的泛化能力,减少模型的错误率。对于回归模型来说,投票法最终的预测结果是多个其他回归模型预测结果的平均值。对于分类模型,硬投票法的预测结果是多个模型预测结果中出现次数最多的类别,软投票对各类预测结果的概率进行求和,最终选取概率之和最大的类标原创 2021-04-14 13:34:25 · 1220 阅读 · 0 评论 -
掌握分类问题的评估及参数调优
掌握分类问题的评估及参数调优使用网格搜索进行超参数调优:方式1:网格搜索GridSearchCV()原创 2021-03-29 21:31:08 · 284 阅读 · 0 评论 -
掌握基本的分类模型
掌握基本的分类模型使用sklearn构建完整的分类项目收集数据集并选择合适的特征:选择度量模型性能的指标:度量分类模型的指标和回归的指标有很大的差异,首先是因为分类问题本身的因变量是离散变量,因此像定义回归的指标那样,单单衡量预测值和因变量的相似度可能行不通。其次,在分类任务中,我们对于每个类别犯错的代价不尽相同,例如:我们将癌症患者错误预测为无癌症和无癌症患者错误预测为癌症患者,在医院和个人的代价都是不同的,前者会使得患者无法得到及时的救治而耽搁了最佳治疗时间甚至付出生命的代价,而后者只需要在后原创 2021-03-26 22:09:15 · 229 阅读 · 0 评论 -
掌握回归模型的参数评估及超参数调优
掌握回归模型的参数评估及超参数调优对模型超参数进行调优(调参):对模型得优化不止局限于对模型算法的优化,比如:岭回归对线性回归的优化是通过在线性回归的损失函数中加入L2正则化项从而牺牲无偏性降低方差。但是,大家是否想过这样的问题:在L2正则化中参数 ???? 应该选择多少?是0.01、0.1、还是1?到目前为止,我们只能凭经验或者瞎猜,能不能找到一种方法找到最优的参数 ???? ?事实上,找到最佳参数的问题本质上属于最优化的内容,因为从一个参数集合中找到最佳的值本身就是最优化的任务之一,我们脑海中浮现出原创 2021-03-24 20:01:02 · 1508 阅读 · 0 评论 -
掌握偏差与方差理论
掌握偏差与方差理论优化基础模型在刚刚的回归问题的基本算法中,我们使用数据集去估计模型的参数,如线性回归模型中的参数w,那么这个数据集我们称为训练数据集,简称训练集。我们在回归问题中使用训练集估计模型的参数的原则一般都是使得我们的损失函数在训练集达到最小值,其实在实际问题中我们是可以让损失函数在训练集最小化为0,如:在线性回归中,我加入非常多的高次项,使得我们模型在训练集的每一个数据点都恰好位于曲线上(如下图),那这时候模型在训练集的损失值也就是误差为0。那么我们的模型是否可以预测任意情况呢?答案是显原创 2021-03-22 22:36:25 · 459 阅读 · 0 评论 -
掌握基本的回归模型
掌握基本的回归模型使用sklearn构建完整的机器学习项目流程一般来说,一个完整的机器学习项目分为以下步骤:明确任务类型:回归/分类收集数据集并选择合适的特征。选择度量模型性能的指标。选择具体的模型并进行训练以优化模型。评估模型的性能并调参。使用sklearn构建完整的回归项目1.首先任务类型已指定:回归任务。2.收集数据集并选择合适的特征:3.选择度量模型性能的指标:MSE均方误差:mean_squared_error 函数计算均方误差MAE平均绝对误差:平均绝对误差可以避原创 2021-03-18 20:05:24 · 415 阅读 · 0 评论