
李航统计学习方法
灯火阑珊不知处
这个作者很懒,什么都没留下…
展开
-
第一章统计学习方法概论(二)三要素、模型评估和模型选择
统计学习方法都是由模型、策略和算法构成的,即统计学习方法由三要素构成,可以简单地表示为 方法=模型+策略+算法。 1、模型 在监督学习中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包括所有可能的条件概率分布或决策函数。假设空间用F表示。假设空间可以定义为决策函数的集合:F={f|Y=f(X)}F = \{ f|Y = f(X)\} 。其中,X和Y是定义在输入空间X和输出空间Y原创 2018-04-23 15:10:59 · 731 阅读 · 0 评论 -
第七章支持向量机(一)
支持向量机是一种二类分类模型。它的基本模型是定义在特征空间上的间隔最大的线性分类器,间隔最大使它有别于感知机;支持向量机还包括核技巧,这使它称为实质上的非线性分类器。支持向量机的学习策略就是间隔最大化,可形式化为一个求解凸二次规划的问题,也等价于正则化的合页损失函数的最小化问题。支持向量机的学习算法是求解凸二次规划的最优化算法。 支持向量机学习方法包含构建由简至繁的模型:线性可分支持向量机,原创 2018-05-15 21:39:19 · 877 阅读 · 0 评论 -
第四章朴素贝叶斯法
朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。4.1朴素贝叶斯法的学习与分类4.1.1基本方法 设输入空间X⊆RnX \subseteq {R^n}为n维向量的集合,输出空间为类标记集合Y={c1,c2,...,ck}Y =原创 2018-04-27 16:44:34 · 269 阅读 · 0 评论 -
第三章k近邻法
k近邻法(KNN)是一种基本分类和回归方法。k近邻法的输入为实例的特征向量,对应于特征空间中的点;输出为实例的类别,可以取多类。k近邻法假设给定一个训练数据集,其中的实例类别已定。分类时候,对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。k近邻法实际上利用训练数据集对特征向量空间进行划分,并作为其分类的“模型”。k值的选择、距离度量及分原创 2018-04-27 12:25:51 · 591 阅读 · 0 评论 -
第六章(一)逻辑回归
6.1逻辑斯谛回归模型6.1.1逻辑斯谛分布 定义6.1逻辑斯谛分布:设X是连续随机变量,X服从逻辑斯谛分布是指X具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \le x) = \frac{1}{{1 + {e^{ - (x - \mu )/\gamma }}}} f(x)=e−(x−μ)/γγ(1+e−(x−μ)/γ)2f(x) = \f原创 2018-05-04 17:59:41 · 258 阅读 · 0 评论 -
第二章感知机
感知机是二元分类的线性分类模型,其输入为实例的特征向量,输出为实例的类别,取+1和-1值。感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型。感知机学习旨在求出将训练数据进行线性划分的分离超平面,为了基于误分类的损失函数,利用梯度下降法对损失函数进行极小化,求得感知机模型。感知机学习算法具有简单而易于实现的优点,分为原始形式和对偶形式。感知机预测是用学习得到的感知机模型原创 2018-04-26 13:32:37 · 682 阅读 · 0 评论 -
第五章决策树
决策树是一种基本的分类和回归方法。本章主要讨论用于分类的决策树。决策树模型是树型结构,在分类问题中,表示基于特征对实例进行分类的过程。它可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。其主要优点是模型具有可读性,分类速度快。学习时候,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时候,对新的数据,利用决策树模型 进行分类。决策树学习通常包含3个步原创 2018-05-03 18:02:52 · 484 阅读 · 0 评论 -
第一章统计学习方法概论(四)分类问题、标注问题和回归问题
分类问题: 评估分类器性能的指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本数和总样本数之比,也就是损失函数是0-1损失时候,测试数据集上的准确率。 对于二类分类问题常用的评价指标是精确率与召回率。通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,4种情况出现的总数分别记作:TP——将正类预测为正类数 FN——将正类预测为负类数原创 2018-04-25 17:04:58 · 918 阅读 · 0 评论 -
第一章统计学习方法概论(一)统计学习及监督学习
1.1统计学习统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。统计机器学习的主要特点是:(1)统计学习以计算机及网络为平台,是建立在计算机及网络上的;(2)统计学习以数据为研究对象,是数据驱动的学科。(3)统计学习的目的是对数据进行预测与分析(4)统计学习以原创 2018-04-19 17:07:09 · 558 阅读 · 0 评论 -
第一章统计学习方法概论(三)泛化能力和生成判别模型
1、泛化能力 学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采用最多的方法是通过测试误差来评价学习方法的泛化能力。但这种评价是依赖于测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。 泛化误差的定义。如果学到的模型是f∧\mathop f\limits^ \we原创 2018-04-23 16:44:08 · 727 阅读 · 0 评论 -
第七章支持向量机(二)
7.3非线性支持向量机 非线性支持向量机用于解决非线性问题,使用核技巧。 7.31核技巧 1.非线性问题 如果一个问题用直线(线性模型)无法将正负实例正确分开,但能用一个超曲面将正负实例正确分开,则称这个问题是非线性可分问题。非线性问题往往不好求解,所以希望能够用解线性分类问题的方法解决这个问题。所采取的的方法是进行一个非线性变换,将非线性问题变换为线性问题,通过解变换...原创 2018-06-12 21:28:25 · 510 阅读 · 0 评论