
《统计学习方法》学习笔记
Michael阿明
两个孩子的父亲,8年机械工程师,已转行互联网做算法,一起继续加油!高举智慧,她就使你高升;怀抱智慧,她就使你尊荣。-- 箴言(4:8)
展开
-
《统计学习方法》学习笔记目录
此篇为 李航老师著的《统计学习方法》的学习笔记汇总,准备学习并敲一敲代码,还请大家不吝赐教!原创 2019-12-10 21:54:27 · 7937 阅读 · 108 评论 -
无监督学习方法总结
文章目录1. 无监督学习方法的关系和特点1.1 各种方法之间的关系1.2 无监督学习方法1.3 基础机器学习方法1. 无监督学习方法的关系和特点八种常用的统计机器学习方法:聚类方法(层次聚类、k均值聚类)奇异值分解(SVD)主成分分析(PCA)潜在语义分析(LSA)概率潜在语义分析(PLSA)马尔可夫链蒙特卡罗法(MCMC,包括Metropolis-Hastings算法、吉布斯抽...原创 2020-05-07 22:03:16 · 7969 阅读 · 28 评论 -
PageRank 算法
文章目录1. PageRank 的定义1.1 基本想法1.2PageRank算法是图的链接分析(link analysis)的代表性算法,属于图数据上的无监督学习方法。PageRank算法最初作为互联网网页重要度的计算方法,1996年由Page和Brin提出,并用于谷歌搜索引擎的网页排序。事实上,PageRank可以定义在任意有向图上,后来被应用到社会影响力分析、文本摘要等多个问题。Pag...原创 2020-05-07 21:36:58 · 2852 阅读 · 20 评论 -
潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)
文章目录潜在狄利克雷分配(latent Dirichlet allocation,LDA),作为基于贝叶斯学习的话题模型,是潜在语义分析、概率潜在语义分析的扩展,于2002年由Blei等提出。LDA在文本数据挖掘、图像处理、生物信息处理等领域被广泛使用。LDA模型是文本集合的生成概率模型。假设每个文本由话题的一个多项分布表示,每个话题由单词的一个多项分布表示,特别假设文本的话题分布的先验分布是...原创 2020-05-06 00:41:47 · 13756 阅读 · 20 评论 -
马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)
文章目录1. 蒙特卡罗法2. 马尔可夫链3. 马尔可夫链蒙特卡罗法4. Metropolis-Hastings 算法5. 吉布斯抽样蒙特卡罗法(Monte Carlo method),也称为统计模拟方法(statistical simulation method),是通过从概率模型的随机抽样进行近似数值计算的方法马尔可夫链蒙特卡罗法(Markov Chain Monte Carlo,MCMC)...原创 2020-05-01 23:24:04 · 4471 阅读 · 10 评论 -
概率潜在语义分析(Probabilistic Latent Semantic Analysis,PLSA)
文章目录1. 概率潜在语义分析模型1.1 基本想法概率潜在语义分析(probabilistic latent semantic analysis,PLSA),也称概率潜在语义索引(probabilistic latent semantic indexing,PLSI)利用概率生成模型对文本集合进行话题分析的无监督学习方法最大特点:用隐变量表示话题整个模型表示 文本生成话题,话题生成单词,...原创 2020-05-01 18:08:49 · 3248 阅读 · 26 评论 -
潜在语义分析(Latent Semantic Analysis,LSA)
文章目录一种无监督学习方法,主要用于文本的话题分析,其特点是通过矩阵分解发现文本与单词之间的基于话题的语义关系。潜在语义分析由Deerwester等于1990年提出,最初应用于文本信息检索,所以也被称为潜在语义索引(latent semantic indexing,LSI),在推荐系统、图像处理、生物信息学等领域也有广泛应用。文本信息处理中,传统的方法以单词向量表示文本的语义内容,以单词向...原创 2020-05-01 00:14:35 · 13365 阅读 · 21 评论 -
主成分分析(Principal Component Analysis,PCA)
文章目录1. 总体主成分分析主成分分析(Principal Component Analysis,PCA)是一种常用的无监督学习方法利用正交变换把由线性相关变量表示的观测数据 转换为 少数几个由线性无关变量表示的数据,线性无关的变量 称为 主成分主成分的个数通常小于原始变量的个数,所以PCA属于降维方法主要用于发现数据中的基本结构,即数据中变量之间的关系,是数据分析的有力工具,也用于其他...原创 2020-04-26 23:52:39 · 3809 阅读 · 8 评论 -
奇异值分解(Singular Value Decomposition,SVD)
文章目录1. 奇异值分解的定义与性质1.1 定义1.2 两种形式1.2.1 紧奇异值分解1.2.2 截断奇异值分解1.3 几何解释1.4 主要性质一种矩阵因子分解方法矩阵的奇异值分解一定存在,但不唯一奇异值分解可以看作是矩阵数据压缩的一种方法,即用因子分解的方式近似地表示原始矩阵,这种近似是在平方损失意义下的最优近似1. 奇异值分解的定义与性质1.1 定义Am×n=UΣVTUUT=...原创 2020-04-20 23:22:49 · 6351 阅读 · 12 评论 -
聚类方法(Clustering)
文章目录1. 聚类基本概念聚类:依据样本特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题聚类目的:通过得到的类或簇来发现数据的特点或对数据进行处理,在数据挖掘、模式识别等领域有着广泛的应用聚类 属于无监督学习,因为只是根据样本的相似度或距离将其进行归类,而类或簇事先并不知道1. 聚类基本概念...原创 2020-04-14 22:58:09 · 8156 阅读 · 20 评论 -
无监督学习概论
文章目录1. 无监督学习基本原理2. 基本问题2.1 聚类 Clustering2.2 降维 Dimensionality Reduction2.3 概率模型估计3. 机器学习三要素4. 无监督学习方法4.1 聚类4.2 降维4.3 话题分析4.4 图分析1. 无监督学习基本原理机器学习或统计学习一般包括监督学习、无监督学习、强化学习无监督学习:从无标注数据中学习模型的机器学习问题无标注...原创 2020-04-07 00:10:28 · 3134 阅读 · 36 评论 -
监督学习方法总结
1. 适用问题监督学习:学习一个模型,使它能对给定的输入预测相应的输出。包括分类、标注、回归。分类问题:从实例的 特征向量 到 类标记 的预测问题标注问题:从 观测序列 到 标记序列(或状态序列) 的预测问题。感知机、k近邻法、朴素贝叶斯法、决策树 是简单的分类方法,具有模型直观、方法简单、实现容易等特点逻辑斯谛回归、最大熵模型、支持向量机、提升方法 是更复杂但更有效的分类方法,往...原创 2020-04-06 16:50:09 · 10344 阅读 · 28 评论 -
EM(期望极大化)算法及其推广
文章目录1. EM算法2. EM算法收敛3. EM算法应用4. EM算法的推广5. sklearn.mixture.GaussianMixture概率模型有时既有观测变量(observable variable),又有隐变量或潜在变量(latent variable)如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。当模型含有隐变量时,不能...原创 2020-03-31 00:34:01 · 2228 阅读 · 10 评论 -
提升方法(Boosting)
文章目录1. 提升方法AdaBoost算法2. AdaBoost算法训练误差分析3. AdaBoost算法的解释4. 提升树提升(boosting)方法是一种常用的统计学习方法,应用广泛且有效。在分类问题中,它通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。1. 提升方法AdaBoost算法思路:多个算法的判断结果综合弱学习方法容易获得,通过组合一系...原创 2020-03-27 20:51:53 · 2674 阅读 · 12 评论 -
支持向量机(Support Vector Machines,SVM)
文章目录1. 线性可分SVM 与 硬间隔最大化1.1 线性可分SVM1.2 函数间隔、几何间隔1.3 间隔最大化支持向量机(SVM)是一种二类分类模型。支持向量机还包括核技巧,实质上是非线性分类器。学习策略:间隔最大化学习算法:求解凸二次规划的最优化算法。当训练数据线性可分时,通过硬间隔最大化(hard margin maximization),学习一个线性的分类器,即线性可分支持向量...原创 2020-03-20 18:53:15 · 1449 阅读 · 0 评论 -
决策树(Decision Tree,DT)
决策树(decision tree)是一种基本的分类与回归方法。分类问题中,基于特征对实例进行分类的过程。优点:模型具有可读性,分类速度快。学习:利用训练数据,根据损失函数最小化的原则建立决策树模型。预测:对新的数据,利用决策树模型进行分类。决策树学习通常包括3个步骤:特征选择、决策树生成、决策树修剪。Quinlan在1986年提出的ID3算法、1993年提出的C4.5算法Breiman等人在1984年提出的CART算法原创 2020-03-12 01:26:00 · 4483 阅读 · 2 评论 -
K 近邻法(K-Nearest Neighbor, K-NN)
文章目录1. k近邻算法2. k近邻模型3. 实现方法, kd树k近邻法(k-nearest neighbor,k-NN)是一种基本分类与回归方法。输入:实例的特征向量,对应于特征空间的点输出:实例的类别,可以取多类假设:给定一个训练数据集,其中的实例类别已定。分类:对新的实例,根据其k个最近邻的训练实例的类别,通过多数表决等方式进行预测。因此,k近邻法不具有显式的学习过程。k近邻法...原创 2020-03-02 00:14:49 · 2040 阅读 · 2 评论 -
感知机(Perceptron)
文章目录1. 感知机模型2. 感知机学习策略3. 感知机学习算法3.1 原始形式3.2 算法收敛性3.3 对偶形式感知机(perceptron)是二类分类的线性分类模型输入:实例的特征向量输出:实例的类别,取 +1 和 -1 二值感知机对应于输入空间(特征空间)中将实例划分为正负两类的分离超平面,属于判别模型旨在求出将训练数据进行线性划分的分离超平面,为此,导入基于误分类的损失函数,利...原创 2020-02-28 00:01:14 · 1793 阅读 · 0 评论 -
统计学习及监督学习概论
文章目录1. 统计学习2. 统计学习分类2.1 基本分类2.1.1 监督学习 supervised learning2.1.2 无监督学习 unsupervised learning2.1.3 强化学习 reinforcement learning2.1.4 半监督学习、主动学习2.2 按模型分类2.3 按算法分类2.4 按技巧分类3. 统计学习方法三要素4. 模型评估与选择过拟合Python代...原创 2020-02-27 01:28:57 · 3092 阅读 · 3 评论 -
条件随机场(Conditional Random Field,CRF)
文章目录1. 概率无向图模型1. 概率无向图模型概率无向图模型(probabilistic undirected graphical model),又称为马尔可夫随机场(Markov random field),是一个可以由无向图表示的联合概率分布。...原创 2020-02-04 15:43:01 · 1838 阅读 · 2 评论 -
逻辑斯谛回归模型( Logistic Regression,LR)& 最大熵模型(Max Entropy,ME)
文章目录1. Logistic Regression 模型1.1 logistic 分布1. Logistic Regression 模型1.1 logistic 分布定义:设 XXX 是连续随机变量, XXX 服从 logistic 分布是指 XXX 具有下列分布函数和密度函数:F(x)=P(X≤x)=11+e−(x−μ)/γF(x) = P(X \leq x) = \frac{1}{1...原创 2020-01-20 00:23:25 · 3451 阅读 · 0 评论 -
朴素贝叶斯法(Naive Bayes,NB)
@[toc]## 1. 朴素贝叶斯法的学习与分类### 1.1 基本方法- 输入空间 $\chi \subseteq R^n$ , n维向量的集合- 输出空间:类标记集合 $Y'=\{c_1,c_2,...c_k\}$- 输入:特征向量 $x \in \chi$- 输出:类标记 $y \in Y'$- $X$ 是空间 $\chi$ 上的随机向量- $Y$ 是输出空间 $Y'$ 上的随机变量- 训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...(x_N,y_N)\}$ 由原创 2020-01-18 21:28:08 · 1563 阅读 · 2 评论 -
隐马尔科夫模型(HMM)笔记(公式+代码)
文章目录1. 基本概念1.1 HMM模型定义1.2 盒子和球模型1.3 观测序列生成过程1.4 HMM模型3个基本问题2. 概率计算问题2.1 直接计算法隐马尔科夫模型(hidden Markov model,HMM)是可用于标注问题的统计学习模型,描述由隐藏的马尔可夫链随机生成观测序列的过程,属于生成模型。隐马尔可夫模型在语音识别、自然语言处理、生物信息、模式识别等领域有着广泛的应用。本文...原创 2019-12-07 15:54:48 · 9079 阅读 · 5 评论