
统计学习方法
csdn_lzw
这个人很菜什么也没写
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
第八章 提升方法
提升方法 (Boosting)Boosting基本思想: 通过改变训练数据的概率分布(训练数据的权值分布),学习多个弱分类器,并将它们线性组合,构成强分类器。Boosting 方法需要解决两个问题 1. 如何改变训练数据的权值 2. 如何将弱分类器组合成强分类器。AdaBoost 思想1.提高那些被前一轮弱分类器错误分类样本的权值,而降低那些被正确分类样本的权值。 未被正...原创 2018-03-14 18:10:39 · 280 阅读 · 0 评论 -
第七章 支持向量机(四) 序列最小最优化算法SMO
在前三篇中,一直有一个问题未解决,就是如何求解对偶问题。 SVM的对偶问题如下 maxα−12∑i=1n∑j=1nαiαjyiyjK(xi,xj)+∑i=1nαi(1)(1)maxα−12∑i=1n∑j=1nαiαjyiyjK(xi,xj)+∑i=1nαi\mathop {max}_{\alpha}\quad -\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^n\alpha...原创 2018-04-04 17:26:14 · 371 阅读 · 0 评论 -
第七章 支持向量机(三)非线性支持向量机与核函数
非线性支持向量机与核函数一、非线性分类非线性分类问题指的是通过利用非线性模型才能很好地进行分类的问题。 用线性分类方法求解非线性分类问题的一般思想 先使用一个变换将原空间的数据映射到新空间, 然后在新空间里用线性分类学习方法。二、核函数的引入设XXX是输入空间,HHH为特征空间,如果存在一个从XXX到HHH的映射 ϕ(x):X→Hϕ(x):X→H\phi(x):X ...原创 2018-04-03 15:59:51 · 879 阅读 · 0 评论 -
第七章 支持向量机(二)线性支持向量机与软间隔最大化
线性支持向量机与软间隔最大化一、线性可分SVM的问题 【1】 现实中数据往往是线性不可分的。 即使可分,也会因异常点(蓝色的)影响模型的泛化效果。 不考虑蓝色异常点,分类超平面为橙色。加入蓝色点。分离超平面为黑色。这样会严重影响模型的预测效果。 二、线性SVM与软间隔最大化线性不可分意味着某些样本点不能满足函数间隔大于等于1。 软间隔...原创 2018-04-02 20:01:17 · 394 阅读 · 0 评论 -
第七章 支持向量机(一)线性可分支持向量机与硬间隔最大化
模型: 二类分类模型 3种支持向量机模型 线性可分支持向量机:硬间隔最大化+线性分类器 线性支持向量机:软间隔最大化+线性分类器 非线性支持向量机:核技巧+软间隔最大化 策略:形式化为求解凸二次规划问题 算法: 求解凸二次规划的最优化算法线性可分支持向量机与硬间隔最大化训练数据集D={(x1,y1),(x2,y2)...(xn,yn)}D={(x1,y1),(x2,y2)....原创 2018-03-30 14:53:14 · 678 阅读 · 0 评论 -
第三章 k 近邻
k 近邻KNN分类回归方法:分类任务“投票法”,回归任务“平均法”。 懒惰学习的代表:在训练阶段仅仅是把样本保存起来,训练时间开销为0,待收到测试样本再进行处理。 模型: 利用训练数据集对特征向量空间进行划分,并作为分类的“模型”。 策略:多数表决规则(等价于经验风险最小化)。多数表决规则:如果分类的损失函数为0-1损失函数 对给定的样本xxx,其最近邻的kkk个训练实例点构成的集...原创 2018-03-12 22:43:16 · 219 阅读 · 0 评论 -
第五章 决策树2
CART 分类回归树 (Classification and regression tree)CART是决策树的一种,递归地二分每个特征,生成树为二叉树。 对回归树用平方误差最小化准则; 对分类树用基尼指数最小化准则。回归树假设回归树已将输入空间划分为M个单元R1,R2,...RMR1,R2,...RMR_1,R_2,...R_M,并且在每个单元RmRmR_m上有一个输出值cmcm...原创 2018-03-12 21:56:13 · 235 阅读 · 0 评论 -
第五章 决策树1
什么是决策树模型:学习条件概率分布(从训练数据归纳出一组分类规则) 策略:损失函数最小化(正则化的极大似然函数) 算法: 最优决策树NP完全问题,启发式算法(基于直观或经验构造的算法) 递归的选择最优的(有区分能力的)特征,数据根据该特征进行分割。 递归终止条件:遇到以下三种情况中的任意一种数据用完特征用完节点包含的样本属于同一类 怎么量化特征的区分能力根据特征...原创 2018-03-12 16:29:00 · 229 阅读 · 0 评论 -
第一章 统计学习方法概论
第一章 统计学习方法概论统计学习方法:监督、无监督、半监督、强化学习 蓝皮书只讲监督学习 方法 = 模型+策略+算法 模型 : 学习条件概率分布或者决策函数 P(Y|X)P(Y|X)P(Y|X) Y=f(x)Y=f(x)Y=f(x) 策略:经验(平均损失)风险或者结构(加正则化项)风险最小化 对数损失函数(对数似然损失函数) L(Y,P(Y|X))=−logP(Y|X)L(Y...原创 2018-03-12 11:06:55 · 147 阅读 · 0 评论 -
第六章 逻辑回归
逻辑回归 (Logistic regression)一. 线性模型线性模型试图学一个通过d个属性的线性组合来进行预测的函数 f(x)=w1x1+w2x2+...wdxd+bf(x)=w1x1+w2x2+...wdxd+bf(x) = w_1x_1+w_2x_2+...w_dx_d+b f(x)=wTx+bf(x)=wTx+bf(x) = w^Tx+b 参数w,bw,bw,b学得之...原创 2018-03-17 19:42:04 · 505 阅读 · 0 评论 -
第八章 提升方法2
一. 提升树 (Boosting Tree)提升树:以决策树为基函数的提升方法 模型:决策树的加法模型 策略:最小化损失函数(分类问题:指数函数;回归问题:平方误差) 算法: 前向分步对于二分类问题,提升树算法只需要将AdaBoost中的基分类器变为二类分类树。回归问题的提升树提升树模型 fM(x)=∑m=1MT(x;Θm)fM(x)=∑m=1MT(x;Θm)f_M(x...原创 2018-03-15 10:31:26 · 212 阅读 · 0 评论 -
第二章 感知机
模型:二类分类的线性模型 (线性模型+符号函数) 策略:基于误分类的损失函数最小化 算法:原始形式 对偶形式感知机是神经网络和支持向量机的基础一、模型训练数据集D={(x1,y1),(x2,y2)...(xn,yn)}D={(x1,y1),(x2,y2)...(xn,yn)}D=\{(x_1,y_1),(x_2,y_2)...(x_n,y_n)\} xi∈Rn,yi∈{...原创 2018-03-29 14:16:02 · 282 阅读 · 0 评论