
统计学习方法笔记
yeyustudy
这个作者很懒,什么都没留下…
展开
-
统计学习方法笔记(一)统计学习方法简介
统计学习概论:一、统计学习运行统计学习相关方法的前提:假设同类数据具有一定的统计规律性定义:计算机基于数据构建相应的概率统计模型,利用模型对数据进行预测与分析方法分类:监督学习、非监督学习、半监督学习、强化学习等统计学习三要素:模型、策略、算法 所谓模型,指的是寻找模型的假设空间,即模型所属函数集;所谓策略,指的是模型选取的准则;所谓算法指找到最优模型的方法,本人这样理解,策...原创 2018-01-28 16:41:25 · 324 阅读 · 0 评论 -
统计学习方法笔记(十)逻辑斯谛回归与最大熵模型
逻辑斯谛回归与最大熵模型主要用于统计学习中的经典分类方法逻辑斯谛回归模型1、 定义:设X是连续随机变量,其具有的分布函数和密度函数: F(x)=P(X≤x)=11+e−(x−μ)/γF(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}} f(x)=F′(x...原创 2018-04-29 11:29:23 · 349 阅读 · 0 评论 -
统计学习方法(十三)EM算法(三)
EM算法的推广一、F函数的极大极大算法 F函数:假设隐变量Z的概率分布为P˜(Z)P~(Z)\widetilde P(Z) ,定义分布P˜P~\widetilde P 与参数θθ\theta 的函数如下: F(P˜,θ)=EP˜[logP(Y,Z|θ)]+H(P˜)F(P~,θ)=EP~[logP(Y,Z|θ)]+H(P~)F(\widetilde P,\theta ) = {E_{\...原创 2018-05-20 19:09:06 · 549 阅读 · 0 评论 -
统计学习方法笔记(十一)支持向量机(三)
非线性支持向量机与核函数一、核技巧 1、非线性分类问题是指通过非线性模型才能很好的进行分类的问题。如下图所示: 很显然,不能通过直线(线性模型)将图示实例点进行分离,只能通过一条椭圆曲线。 在实际问题中,非线性问题往往很难求解,然而,如果我们可以先将其变成线性问题,再进行求解,那么问题就得到了解决。 使用线性分类方法求解非线性问题的步骤:首先使用一个变换将原空间的数据映射到新空间,...原创 2018-05-14 16:25:01 · 314 阅读 · 0 评论 -
统计学习方法笔记(十二)提升方法(一)
提升方法主要针对分类问题,通过改变训练样本的权重,学习多个分类器,将这些分类器进行线性组合提升分类的性能提升方法AdaBoost算法1、基本思路 强可学习:一个概念(类),如果存在一个多项式的算法能够学习它,并且正确率很高,则称这个概念是强可学习的 弱可学习:一个概念(类),如果存在一个多项式的算法能够学习它,但正确率仅比随机猜测略好,则称这个概念是弱可学习的 一个定理:在P...原创 2018-05-15 19:02:45 · 194 阅读 · 0 评论 -
统计学习方法笔记(十四)隐马尔可夫模型(一)
隐马尔可夫模型隐马尔可夫模型是应用于标记问题的统计学模型,其描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。基本概念一、定义 隐马尔可夫模型:是关于时序的概率模型,描述由一个隐藏的马尔可夫链随机的生成不可预测的状态随机序列,再由各个状态生成一个观测而产生观测随机序列的过程。 隐马尔可夫模型由初始概率分布、状态转移概率分布以及观测概率分布确定,其形式定义如下: 设Q是所...原创 2018-05-22 15:42:22 · 582 阅读 · 0 评论 -
统计学习方法笔记(十二)提升方法(二)
提升树提升树是以分类树或回归树为基本分类器的提升方法 1、提升树模型 以决策树为基函数的提升方法称为提升树,对分类问题决策树是二叉分类树,对回归问题决策树是二叉回归树。提升树模型可以表示为决策树的加法模型: fM(x)=∑m=1MT(x;Θm)fM(x)=∑m=1MT(x;Θm){f_M}(x) = \sum\limits_{m = 1}^M {T(x;{\Theta _m})} 其...原创 2018-05-16 20:52:13 · 140 阅读 · 0 评论 -
统计学习方法笔记(十四)隐马尔可夫模型(二)
概率计算算法一、直接计算法 此种算法想要直接通过概率公式进行计算,首先求出状态序列与观测序列的联合概率密度P(O,I|λ)P(O,I|λ)P(O,I|\lambda ) ,之后对所有可能的状态序列进行求和,即可得到P(O|λ)P(O|λ)P(O|\lambda ) ,即利用如下公式: P(I|λ)=πi1ai1i2ai2i3⋯aiT−1iTP(I|λ)=πi1ai1i2ai2i3⋯aiT−...原创 2018-05-24 16:34:01 · 331 阅读 · 0 评论 -
统计学习方法笔记(十四)隐马尔可夫模型(三)
预测算法一、近似算法 在每个时刻t选择在该时刻最有可能出现的状态i∗tit∗i_t^* ,从而得到一个状态序列I∗=(i∗1,i∗2,⋯,i∗T)I∗=(i1∗,i2∗,⋯,iT∗){I^*} = (i_1^*,i_2^*, \cdots ,i_T^*) ,将其作为预测的结果。 给定模型和观测序列,在t时刻处于某个状态的概率为: γt(i)=αt(i)βt(i)P(O|λ)=αt(i)β...原创 2018-05-24 18:38:41 · 202 阅读 · 0 评论 -
统计学习方法笔记(十五)条件随机场(一)
条件随机场条件随机场是给定一组输入随机变量条件下另一组输出随机变量的条件概率模型,其假设输出随机变量构成马尔可夫随机场概率无向图模型概率无向图模型,又称为马尔可夫随机场,是一个可以由无向图表示的联合概率分布。 一、模型定义 1、图是由结点及连接节点的边组成的集合。无向图是指边没有方向的图。 概率图模型是由图表示的概率分布。设有联合概率分布P(Y)P(Y)P(Y) ,YYY 是一组...原创 2018-05-30 16:17:37 · 745 阅读 · 0 评论 -
统计学习方法笔记(十五)条件随机场(二)
条件随机场的概率计算问题问题描述:给定条件随机场P(Y|X)P(Y|X)P(Y|X) ,输入序列x和输出序列y,计算条件概率P(Yi=yi|x),P(Yi−1=yi−1,Yi=yi|x)P(Yi=yi|x),P(Yi−1=yi−1,Yi=yi|x)P({Y_i} = {y_i}|x),P({Y_{i - 1}} = {y_{i - 1}},{Y_i} = {y_i}|x) 以及相应的数学期望的...原创 2018-05-31 16:31:23 · 847 阅读 · 0 评论 -
统计学习方法笔记(十一)支持向量机(二)
线性可分支持向量机与软间隔最大化一、线性支持向量机 当数据是线性不可分的时候,不等式约束并不总是成立的,所以需要修改硬间隔最大化,使其成为软间隔最大化。 对于训练数据来说,所谓的线性不可分,指数据中有一些特异点,其无法满足函数间隔大于等于1的约束条件。为了解决这个问题,对每个样本点引入了一个松弛变量,使其函数间隔加上这个松弛变量满足相应的条件,这样,约束条件变为: yi(w⋅xi+b)≥...原创 2018-05-13 20:15:21 · 286 阅读 · 0 评论 -
统计学习方法笔记(十三)EM算法(二)
EM算法在高斯混合模型学习中的应用一、高斯混合模型 1、定义:高斯混合模型是指具有以下形式的概率分布模型: P(y|θ)=∑k=1Kαkϕ(y|θk)P(y|θ)=∑k=1Kαkϕ(y|θk)P(y|\theta ) = \sum\limits_{k = 1}^K {{\alpha _k}\phi (y|{\theta _k})} 其中,αkαk\alpha_k 是系数,有∑k=1Kα...原创 2018-05-19 19:39:55 · 282 阅读 · 0 评论 -
统计学习方法笔记(四)统计学习方法简介
生成模型与判别模型监督学习方法可以分为生成方法与判别方法,所学到的模型叫做生成模型与判别模型 1. 生成方法:生成方法由数据学习联合概率密度分布 P(X,Y)P(X,Y)P(X,Y),然后求出条件概率分布作为预测的模型,称为生成模型: P(Y|X)=P(X,Y)/P(X)P(Y|X)=P(X,Y)/P(X)P(Y|X) = P(X,Y)/P(X) 这种方法被称为生成方法的原因是,给定了...原创 2018-02-05 15:53:01 · 206 阅读 · 0 评论 -
统计学习方法笔记(二)统计学习方法简介
模型评估与模型选择训练误差与测试误差:引入训练误差与测试误差的概念,当损失函数给定之后,训练误差与测试误差就成为学习方法评估的标准,需要注意的是,学习方法采用的损失函数未必就是评估时采用的损失函数,让两者一致是比较理想的。 假设学习到的模型是 Y=fˆ(X)Y=f^(X)Y = \widehat f(X) 1. 训练误差:是关于训练数据集的平均损失 Remp(fˆ)=1N∑i...原创 2018-01-29 20:52:05 · 191 阅读 · 0 评论 -
统计学习方法笔记(三)统计学习方法简介
正则化与交叉验证前文所述的模型选择只能大体选择出一类较好的模型,即利用训练数据集学习模型,没有考虑到测试误差,而正则化与交叉验证的提出,则加入了测试误差的考量,因此,这两种方法用来选择具体模型。正则化正则化是结构风险最小化策略的实现,其是在经验风险加上一个正则项或罚项。一般来说,正则化项是模型复杂度的单调递增函数。正则化一般具有以下形式: minf∈F1N∑i=1NL(yi,f(...原创 2018-01-30 15:02:00 · 222 阅读 · 0 评论 -
统计学习方法笔记(五)感知机算法
感知机感知机是二类分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1跟-1二值。感知机的学习旨在求出将训练数据进行线性划分的分离超平面 1. 感知机的定义:由输入空间到输入空间的如下函数: f(x)=sign(w⋅x+b)f(x)=sign(w⋅x+b)f(x) = sign(w \cdot x + b) 其中,www 和 bbb 为感知机模型参数,www 叫做权...原创 2018-02-18 21:19:50 · 215 阅读 · 0 评论 -
统计学习方法笔记(七)k近邻法
k近邻法输入为特征向量,输出为多个类别。在k近邻法中,实例的类别已定,分类时,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。 其基本要素为k值的选择、距离度量以及分类决策规则。k近邻算法简单描述:给定一个训练集,对新的输入实例,找到与其最邻近的k个实例,这k个实例的多数属于哪个类,该输入实例就被分为哪个类算法: 输入:训练数据集;输出:某个实例所...原创 2018-02-28 19:48:20 · 265 阅读 · 0 评论 -
统计学习方法笔记(六)感知机学习算法
感知机学习算法感知机学习算法原始形式求参数w,b,使其为损失函数极小化问题的解: minw,bL(w,b)=−∑xi∈Myi(w⋅xi+b)minw,bL(w,b)=−∑xi∈Myi(w⋅xi+b)\mathop {\min }\limits_{w,b} L(w,b) = - \sum\limits_{{x_i} \in M} {{y_i}(w \cdot {x_i} + b)}...原创 2018-02-21 17:43:36 · 270 阅读 · 0 评论 -
统计学习方法笔记(八)朴素贝叶斯法
朴素贝叶斯法简单介绍:输入输出的联合概率密度已知,对给定的输入,利用贝叶斯定理求出后验概率最大的输出朴素贝叶斯法的基本方法通过训练集来学习联合概率分布,即利用先验概率分布 P(Y=ck),k=1,2,⋯,KP(Y=ck),k=1,2,⋯,KP(Y = {c_k}),k = 1,2, \cdots ,K 以及条件概率分布 P(X=x|Y=ck)=P(X(1)=x(1),⋯,X(n)=...原创 2018-03-30 18:35:59 · 229 阅读 · 0 评论 -
统计学习方法笔记(九)决策树
决策树适用于分类问题,建立模型通常需要三个步骤:特征选择,决策树的生成和决策树的修建模型的建立1、 决策树的形式:一种对实例进行分类的树形结构,由结点和有向边组成,结点有两种形式,一种是内部结点,代表一个特征或属性,另一种是叶节点,代表一个类。示例如下: 2、 分类过程:从根节点开始,通过其属性判断属于哪一个子结点,直至最终到达叶结点,分类完成。 3、 决策树的特性: ...原创 2018-04-24 19:39:28 · 250 阅读 · 0 评论 -
统计学习方法笔记(十一)支持向量机一
支持向量机支持向量机(SVM)是一种二类分类模型,是定义在特征空间上的间隔最大的线性分类器;同时,支持向量机还包括核技巧,这使得支持向量机成为实质上的非线性分类器。 支持向量机分为线性可分支持向量机、线性支持向量机以及非线性支持向量机,当训练数据线性可分时,通过硬间隔最大化可学习出线性可分支持向量机,又称为硬间隔支持向量机;当训练数据近似线性可分时,通过软间隔最大化可以学习出线性支持向量机,...原创 2018-05-10 16:32:05 · 670 阅读 · 0 评论 -
统计学习方法笔记(十三)EM算法(一)
EM算法及其推广EM算法是一种迭代算法,主要用于含有隐变量的概率模型参数估计的极大似然估计或极大后验概率估计。此种算法共有两步,E步,求期望,M步,求极大EM算法一、EM算法 算法由三硬币问题引入,具体内容见统计学习方法第155页,最终问题转换为求以下参数的极大似然估计。即: θˆ=argmaxθlogP(Y|θ)θ^=argmaxθlogP(Y|θ)\widehat \t...原创 2018-05-19 14:50:58 · 809 阅读 · 0 评论 -
统计学习方法笔记(十五)条件随机场(三)
条件随机场的预测算法预测问题:给定条件随机场P(Y|X)P(Y|X)P(Y|X) 和输入序列(观测序列)x,求条件概率最大的输出序列y∗y∗{y^*} 。条件随机场的预测算法是著名的维特比算法。 y∗=argmaxyPw(y|x)=argmaxy(wF(y,x))y∗=argmaxyPw(y|x)=argmaxy(wF(y,x)){y^*} = \arg \mathop {\max ...原创 2018-06-02 13:55:30 · 256 阅读 · 0 评论