
统计学习方法
文章平均质量分 86
《统计学习方法》 李航博士, 学习笔记
小鹏AI
深度学习算法工程师,主攻深度学习模型优化部署,辅攻图形图像算法调优。
软件设计师、英伟达Jeston Nano专家认证。
展开
-
《统计学习方法》 第一章 统计学习方法概论(原理+代码)
监督学习从给定有限的训练数据出发,假设数据是独立同分布的,而且假设模型属于某个假设空间。统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行分析与预测的一门学科。回归问题中,损失函数是平方损失,正则化可以是参数向量的L2范数,也可以是L1范数。统计学习方法三要素——模型、策略、算法,对理解统计学习方法起到提纲挈领的作用。统计学习中,进行模型选择或者说提高学习的泛化能力是一个重要问题。统计学习包括监督学习、非监督学习、半监督学习和强化学习(学习方法泛化能力的分析是统计学习理论研究的重要课题。原创 2022-11-23 23:45:00 · 266 阅读 · 1 评论 -
《统计学习方法》 第二章 感知机(原理+代码)
当训练数据集线性可分时,感知机学习算法存在无穷多个解,其解由于不同的初值或不同的迭代顺序而可能有所不同。当训练数据集线性可分时,感知机学习算法是收敛的。感知机算法在训练数据集上的误分类次数。感知机学习算法是基于随机梯度下降法的对损失函数的最优化算法,有原始形式和对偶形式。的值,使分离超平面向该无分类点的一侧移动,直至误分类点被正确分类。在这个过程中一次随机选取一个误分类点使其梯度下降。损失函数对应于误分类点到分离超平面的总距离。当实例点被误分类,即位于分离超平面的错误侧。对其进行二类分类的线性分类模型。原创 2022-11-23 14:34:58 · 223 阅读 · 0 评论 -
《统计学习方法》 第三章 K近邻法(原理+代码)
通常,依次选择坐标轴对空间切分,选择训练实例点在选定坐标轴上的中位数 (median)为切分点。值的选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的。树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。坐标的中位数为切分点,将根结点对应的超矩形区域切分为两个子区域。坐标的中位数为切分点,将该结点对应的超矩形区域切分为两个子区域。树可以省去对大部分数据点的搜索, 从而减少搜索的计算量。树是一种便于对k维空间中的数据进行快速检索的数据结构。原创 2022-11-24 18:00:00 · 349 阅读 · 3 评论 -
《统计学习方法》 第四章 朴素贝叶斯(原理+代码)
由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯法的学习与预测大为简化。后验概率最大等价于0-1损失函数时的期望风险最小化。概率估计方法可以是极大似然估计或贝叶斯估计。因而朴素贝叶斯法高效,且易于实现。其缺点是分类的性能不一定很高。具体来说,利用训练数据学习。然后求得后验概率分布。分到后验概率最大的类。原创 2022-11-25 12:27:38 · 161 阅读 · 0 评论 -
《统计学习方法》 第五章 决策树(原理+代码)
决策树的剪枝,往往从已生成的树上剪掉一些叶结点或叶结点以上的子树,并将其父结点或根结点作为新的叶结点,从而简化生成的决策树。决策树的生成,通常使用信息增益最大、信息增益比最大或基尼指数最小作为特征选择的准则。决策树的生成往往通过计算信息增益或其他指标,从根结点开始,递归地产生决策树。由于生成的决策树存在过拟合问题,需要对它进行剪枝,以简化学到的决策树。规则的集合,也可以看作是定义在特征空间划分上的类的条件概率分布。决策树学习旨在构建一个与训练数据拟合很好,并且复杂度小的决策树。决策树可以转换成一个。原创 2022-11-25 12:28:08 · 149 阅读 · 0 评论 -
《统计学习方法》 第六章 逻辑斯谛回归和最大熵模型(原理+代码)
最大熵原理认为在所有可能的概率模型(分布)的集合中,熵最大的模型是最好的模型。逻辑斯谛回归模型及最大熵模型学习一般采用极大似然估计,或正则化的极大似然估计。逻辑斯谛回归模型及最大熵模型学习可以形式化为无约束最优化问题。逻辑斯谛回归模型是由输入的线性函数表示的输出的对数几率模型。最大熵原理应用到分类模型的学习中,有以下约束最优化问题。逻辑斯谛回归模型是由以下条件概率分布表示的分类模型。逻辑斯谛回归模型与最大熵模型都属于对数线性模型。逻辑斯谛回归模型源自逻辑斯谛分布,其分布函数。原创 2022-11-25 12:28:38 · 332 阅读 · 0 评论 -
《统计学习方法》 第七章 支持向量机(原理+代码)
支持向量机支持向量机最简单的情况是线性可分支持向量机,或硬间隔支持向量机构建它的条件是训练数据,线性可分其学习策略是最大间隔法,可以表示为凸二次规划问题,其原始最优化问题为minw,b12∥w∥2\min _{w, b} \frac{1}{2}\|w\|^{2}w,bmin21∥w∥2yi(w⋅xi+b)−1⩾0,i=1,2,⋯ ,N\quad y_{i}\left(w \cdot x_{i}+b\right)-1 \geqslant 0, \quad i=1,2, \cdots, Nyi(w⋅xi原创 2022-11-27 20:23:16 · 382 阅读 · 0 评论 -
《统计学习方法》第八章 提升方法(原理+代码)
最后,AdaBoost将基本分类器的线性组合作为强分类器,其中给分类误差率小的基本分类器以大的权值,给分类误差率大的基本分类器以小的权值。提升:每个基本模型训练时的数据集采用不同权重,针对上一个基本模型分类错误的样本增加权重,使得新的模型重点关注误分类样本。所谓的组合模型是由多个基本模型构成的模型,组合模型的预测效果往往比任意一个基本模型的效果都要好。每次迭代中,提高那些被前一轮分类器错误分类数据的权值,而降低那些被正确分类的数据的权值。AdaBoost算法的一个解释是该算法实际是前向分步算法的一个实现。原创 2022-11-27 20:28:33 · 380 阅读 · 0 评论 -
《统计学习方法》 第九章 EM算法(原理+代码)
EM算法是含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法。在一般条件下EM算法是收敛的,但不能保证收敛到全局最优。隐马尔可夫模型的非监督学习也是EM算法的一个重要应用。算法在每次迭代后均提高观测数据的似然函数值,即。高斯混合模型的参数估计是EM算法的一个重要应用。EM算法通过迭代求解观测数据的对数似然函数。在构建具体的EM算法时,重要的是定义。主要应用于含有隐变量的概率模型的学习。含有隐变量的概率模型的数据表示为。的极大化,实现极大似然估计。算法的特点是每次迭代增加。函数的极大-极大算法。原创 2022-11-27 20:36:47 · 1227 阅读 · 0 评论 -
《统计学习方法》 第十章 隐马尔可夫模型(原理+代码)
Baum-Welch算法,也就是EM算法可以高效地对隐马尔可夫模型进行训练, 它是一种非监督学习算法。前向-后向算法是通过递推地计算前向-后向概率可以高效地进行隐马尔可夫模型的概率计算。,表示状态序列和观测序列的联合分布,但是状态序列是隐藏的,不可观测的。标注问题是给定观测序列预测其对应的标记序列。维特比算法应用动态规划高效地求解最优路径,即概率最大的状态序列。描述由一个隐藏的马尔可夫链随机生成不可观测的状态的序列。再由各个状态随机生成一个观测而产生观测的序列的过程。使得在该模型下观测序列概率。原创 2022-11-27 20:40:39 · 393 阅读 · 0 评论 -
《统计学习方法》 第十一章 条件随机场(原理+代码)
线性链条件随机场一般表示为给定观测序列条件下的标记序列的条件概率分布,由参数化的对数线性模型表示。概率无向图模型或马尔可夫随机场的联合概率分布可以分解为无向图最大团上的正值函数的乘积的形式。模型包含特征及相应的权值,特征是定义在线性链的边与结点上的。条件随机场的最大特点是假设输出变量之间的联合概率分布构成概率无向图模型,即马尔可夫随机场。无向图上的结点之间的连接关系表示了联合分布的随机变量集合之间的条件独立性,即马尔可夫性。维特比算法是给定观测序列求条件概率最大的标记序列的方法。条件随机场是判别模型。原创 2022-11-27 20:46:15 · 657 阅读 · 0 评论 -
《统计学习方法》 第十二章 监督学习方法总结(原理+代码)
逻辑斯谛回归与最大熵模型、条件随机场的学习策略既可以看成是极大似然估计(或正则化的极大似然估计),又可以看成是极小化逻辑斯谛损失(或正则化的逻辑斯谛损失)。提升方法利用学习的模型是加法模型、损失函数是指数损失函数的特点,启发式地从前向后逐步学习模型,以达到逼近优化目标函数的目的。感知机、逻辑斯谛回归与最大熵模型、条件随机场的学习利用梯度下降法、拟牛顿法等一般的无约束最优化问题的解法。监督学习包括分类、标注、回归。决策树学习的策略是正则化的极大似然估计,损失函数是对数似然损失,正则化项是决策树的复杂度。原创 2022-11-27 20:52:16 · 241 阅读 · 0 评论 -
《统计学习方法》 第十三章 无监督学习概论
无标注数据是自然得到的数据,模型表示数据的类别、转换或概率无监督学习的本质是学习数据中的统计规律或潜在结构,主要包括聚类、降维、概率估计。无监督学习的基本想法是对给定数据(矩阵数据)进行某种“压缩”,从而找到数据的潜在结构,假定损失最小的压缩得到的结果就是最本质的结构。假设样本原本存在于低维空间,或近似地存在于低维空间,通过降维则可以更好地表示样本数据的结构,即更好地表示样本之间的关系。聚类是将样本集合中相似的样本(实例)分配到相同的类,不相似的样本分配到不同的类。可以考虑发掘数据的纵向结构,对应聚类。原创 2022-11-27 20:53:47 · 229 阅读 · 0 评论 -
《统计学习方法》 第十四章 聚类方法
得到的类别是平坦的、非层次化的;然后计算每个类的样本的均值,作为类的新的中心;k均值聚类是基于中心的聚类方法,通过迭代,将样本分到k个类中,使得每个样本与其所属类的中心或均值最近,得到k个平坦的,非层次化的类别,构成对空间的划分。(自下而上):聚合法开始将每个样本各自分裂到一个类,之后将相距最近的两类合并,建立一个新的类,重复次操作知道满足停止条件,得到层次化的类别。(自上而下): 分裂法开始将所有样本分到一个类,之后将已有类中相距最远的样本分到两个新的类,重复此操作直到满足停止条件,得到层次化的类别。原创 2022-11-27 21:00:10 · 693 阅读 · 0 评论 -
《统计学习方法》 第十五章 奇异值分解
奇异值分解可以看作是矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似。紧奇异值分解是与原始矩阵等秩的奇异值分解,截断奇异值分解是比原始矩阵低秩的奇异值分解。奇异值分解是弗罗贝尼乌斯范数意义下,也就是平方损失意义下的矩阵最优近似。是方阵,事实上矩阵的奇异值分解可以看作方阵的对角化的推广。奇异值分解包括紧奇异值分解和截断奇异值分解。紧奇奇异值分解是与原始矩阵等秩的奇异值分解。截断奇异值分解是比原始矩阵低秩的奇异值分解。的截断奇异值分解得到的矩阵。原创 2022-11-27 21:09:00 · 801 阅读 · 0 评论 -
《统计学习方法》 第十六章 主成分分析PCA
当我们将数据减少到一个维度时,我们失去了该对角线周围的变化,所以在我们的再现中,一切都沿着该对角线。在确保数据被归一化之后,输出仅仅是原始数据的协方差矩阵的奇异值分解。主成分分析方法主要有两种,可以通过相关矩阵的特征值分解或样本矩阵的奇异值分解进行。现在我们有主成分(矩阵U),我们可以用这些来将原始数据投影到一个较低维的空间中。样本主成分分析就是基于样本协方差矩阵的主成分分析。第一主成分的投影轴基本上是数据集中的对角线。的第一主成分、第二主成分、…的每一列对应一个主成分,得到。的所有线性变换中方差最大的。原创 2022-11-27 21:15:47 · 762 阅读 · 0 评论 -
《统计学习方法》 第十七章 潜在语义分析
潜在语义分析单词向量空间模型通过单词的向量表示文本的语义内容。以单词-文本矩阵XXX为输入,其中每一行对应一个单词,每一列对应一个文本,每一个元素表示单词在文本中的频数或权值(如TF-IDF)X=[x11x12⋯x1nx21x22⋯x2n⋮⋮⋮xm1xm2⋯xmn]X = \left[ \begin{array} { c c c c } { x _ { 11 } } & { x _ { 12 } } & { \cdots } & { x _ { 1 n } } \\\\ { x _ { 21 } } & {原创 2022-11-28 15:07:47 · 511 阅读 · 0 评论 -
《统计学习方法》 第十八章 概率潜在语义分析
给定一个文本集合,通过概率潜在语义分析,可以得到各个文本生成话题的条件概率分布,以及各个话题生成单词的条件概率分布。模型最大特点是用隐变量表示话题,整个模型表示文本生成话题,话题生成单词,从而得到单词-文本共现数据的过程。生成模型刻画文本-单词共现数据生成的过程,共现模型描述文本-单词共现数据拥有的模式。维参数空间中,单词单纯形表示所有可能的文本的分布,在其中的话题单纯形表示在。生成模型表示文本生成话题,话题生成单词从而得到单词文本共现数据的过程。概率潜在语义分析的模型有生成模型,以及等价的共现模型。原创 2022-11-28 15:20:16 · 177 阅读 · 0 评论 -
《统计学习方法》第十九章 马尔可夫链蒙特卡罗法
算的方法 马尔可夫链陟特卡罗法 (Markov Chain Monte Carlo, MCMC), 则是以马尔可夫链 (Markov chain)为概率模型的蒙特卡洛法。则该马尔可夫链满足遍历定理当时间趋于无穷时,马尔可夫链的状态分布趋近于平稳分布,函数的样本平均依概率收敛于该函数的数学期望。马尔可夫链蒙特卡罗法构建一个马尔可夫链,使其平稳分布就是要进行抽样的分布, 首先基于该马尔可夫链进行随机游走。的可逆马尔可夫链(满足遍历定理条件)进行的,其平稳分布就是要抽样的目标分布。原创 2022-11-28 15:59:49 · 779 阅读 · 0 评论 -
《统计学习方法》第二十章 马尔可夫链蒙特卡罗法
LDA模型属于概率图模型可以由板块表示法表示LDA模型中,每个话题的单词分布、每个文本的话题分布、文本的每个位置的话题是隐变量,文本的每个位置的单词是观测变量。模型假设话题由单词的多项分布表示,文本由话题的多项分布表示,单词分布和话题分布的先验分布都是狄利克雷分布。首先随机生成一个文本的话题分布,之后在该文本的每个位置,依据该文本的话题分布随机生成一个话题。LDA模型是含有隐变量的概率图模型模型中,每个话题的单词分布,每个文本的话题分布。文本的每个位置的单词是观测变量LDA模型的学习与推理无法直接求解。原创 2022-11-28 17:11:19 · 603 阅读 · 0 评论 -
《统计学习方法》 第二十一章 PageRank算法
PageRank算法PageRank是互联网网页重要度的计算方法,可以定义推广到任意有向图结点的重要度计算上其基本思想是在有向图上定义随机游走模型即一阶马尔可夫链,描述游走者沿着有向图随机访问各个结点的行为,在一定条件下,极限情况访问每个结点的概率收敛到平稳分布这时各个结点的概率值就是其 PageRank值,表示结点相对重要度有向图上可以定义随机游走模型,即一阶马尔可夫链,其中结点表示状态有向边表示状态之间的转移假设一个结点到连接出的所有结点的转移概率相等转移概率由转移矩阵MMM表示M=[mij]n×nM原创 2022-11-28 23:06:58 · 808 阅读 · 0 评论 -
《统计学习方法》 第二十二章 无监督学习方法总结
马尔可夫链蒙特卡罗法(CMC,包括 Metropolis-Hastings-算法和吉布斯抽样)、潜在狄利克雷分配(LDA)、 PageRank算法。即非负矩阵分解(NMF)变分推理、幂法。这些方法通常用于无监督学习的聚类、降维、话题分析以及图分析。聚类方法(包括层次聚类与k均值聚类)、奇异值分解(SVD)、主成分分析(PCA)、无监督学习方法。无监潜在语义分析(LSA)、概率潜在语义分析(PLSA)此外,还简单介绍了另外三种常用的统计机器学习方法。八种常用的统计机器学习方法,即。原创 2022-11-28 23:08:49 · 247 阅读 · 0 评论