
西瓜书
文章平均质量分 81
西瓜书相关内容分享
BIT_666
天道酬勤,厚积薄发
展开
-
LASSO回归与L1正则化 西瓜书
1.结构风险与经验风险在支持向量机部分,我们接触到松弛变量,正则化因子以及最优化函数,在朴素贝叶斯分类,决策树我们也遇到类似的函数优化问题。其实这就是结构风险和经验风险两种模型选择策略,经验风险负责最小化误差,使得模型尽可能的拟合数据,而结构风险则负责规则化参数,使得参数的形式尽量简洁,从而达到防止过拟合的作用.所以针对常见模型,我们都有下式:.........原创 2018-04-23 19:29:57 · 17172 阅读 · 20 评论 -
集成学习-弱分类器与AdaBoost简介 西瓜书
1.集成学习现实情景中,一个学习器的泛化性能可能有局限,而集成学习则可以通过构造多个学习器来完成学习任务,有时也被称为多分类器系统,集成学习的大致步骤是先生成一组‘个体学习器’,然后基于某种策略将学习器结合起来,个体学习器同昌由现有的算法从训练数据产生,最常用的是决策树,还有神经网络1,支持向量机等。根据集成学习中分类器的类别来看,如果集成学习器中的个体学习器都是相同的,则称为‘同质’集成,对应的.........原创 2018-05-10 17:27:20 · 9757 阅读 · 4 评论 -
集成学习-AdaBoost更新准则推导 西瓜书
1.损失函数上一篇文章简单介绍了集成学习和弱学习器的理论概率,最后给出了AdaBoost的伪代码与实现步骤,思路比较清晰,这篇文章主要针对分类器的重要性α与分布权重Dt的更新规则进行推导.推导之前先看一下常见的损失函数(损失函数在SVM(3)里介绍过,这里只给出损失函数形式):.........原创 2018-05-11 14:32:58 · 2342 阅读 · 0 评论 -
集成学习-随机森林原理与实现 西瓜书
多样性增强在讲随机森林之前,先讨论一下多样性增强.在集成学习中需要有效的生成多样性大的个体学习器,与构造单一学习器对比而言,一般是通过在学习过程中引入随机性,常见的做法是对数据样本,输入属性,输出表示,算法参数进行扰动.1)数据样本扰动给定初始数据集,可从中产生生不同的数据子集,再利用不同的数据子集训练出不同的个体学习器.数据样本扰动是基于采样法,例如Bagging采用自助法采样,,对很多的常见基.........原创 2018-05-18 14:33:47 · 2389 阅读 · 2 评论 -
集成学习-Bagging原理与实现 西瓜书
Bagging简介Bagging是并行式集成学习的最著名代表,名字是由Bootstrap AGGregatING缩写而来,看到Bootstrap我们就会联想到boostrap的随机模拟法和它对应的样本获取方式,它是基于自助采样法(Boostrap sampleing),Bagging也是同理.给定包含m个样本的数据集,先随机抽取一个样本放入采样集中,再把该样本放回,使得下次采样时该样本仍有机会被选.........原创 2018-05-14 14:50:59 · 8995 阅读 · 4 评论 -
线性模型-线性回归与实现 西瓜书
线性模型给定d个属性描述的实例x = (x1,x2,...,xd),其中xi是x在第i个属性上的取值,线性模型想要学得一个通过属性的线性组合来进行预测的函数,即: 一般写成向量模型: .........原创 2018-05-23 11:27:30 · 1914 阅读 · 4 评论