自然语言处理
文章平均质量分 82
大豆木南
人生很长,珍惜每一个晴天雨天刮风天下雪天
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
隐马尔可夫模型(HMM)
本文不是HMM的详细推导文章,是对HMM的一个小总结。详细的推导可参考李航统计学习方法第10章。本文目录如下:隐马尔可夫模型简介HMM可用于标注问题。隐马尔可夫模型是关于时序的概率模型,由一个隐藏的马尔可夫链随机生成不可观测的状态随机序列,再由各个状态生成一个观测从而产生观测随机序列。隐藏的马尔可夫链随机生成的状态的序列,称为状态序列;每个状态生成一个观测,而由此产生的观测的随机序列,称为观测序列。序列的每个位置可以看作是一个时刻。隐马尔可夫模型两个特点:1、引入了隐状态;2、是时序的。原创 2021-10-30 13:39:51 · 1705 阅读 · 0 评论 -
主成分分析(PCA)(principal component analysis)
本文主要讲PCA的相关数学推导。PCA的数学推导用线性代数的知识就可以完成。参考deeplearningbook.org一书2.12 Example: Principal Components Analysis我们先讲两个用到的线性代数知识点:用到的知识点1、矩阵对角线元素之和(the trace operator)矩阵对角线元素之和(the trace operator),记做 Tr ,定义如下:它有如下的性质:1一个矩阵的trace等于它的转置的trace2循环.原创 2021-10-03 17:12:13 · 3300 阅读 · 0 评论 -
潜在语义分析(LSA)(latent semantic analysis)
本文参考李航统计学习方法第17章 潜在语义分析~文本信息处理的一个核心问题是对文本内容进行数字表示,并进行文本之间的语义相似度的计算。传统的方法以单词向量表示文本的语义内容,以单词向量空间的度量(内积或标准化内积)表示文本之间的语义相似度。潜在语义分析试图发现潜在的话题,以话题向量表示文本的语义内容,以话题向量空间的度量(内积或标准化内积)表示文本之间的语义相似度。单词向量空间给定一个文本,用一个向量表示该文本的 ‘语义’ ,向量的每一维对应一个单词,其数值为该单词在该文本中出现的频数或原创 2021-10-04 15:36:38 · 1757 阅读 · 0 评论 -
奇异值分解SVD、PCA主成分分析降维、潜在语义分析LSA之间的关系
奇异值分解SVD是一种矩阵分解也是数据压缩的方法,是在 Frobenius norm (也就是平方损失)意义下的对矩阵的最优近似。具体可以参考奇异值分解(SVD)(Singular Value Decomposition)完全奇异值分解如下:一般矩阵的完全奇异值分解如下:紧奇异值分解如下:若一般矩阵,其秩为 rank() = r , r <=min(m,n),那么的紧奇异值分解就是:这里的就是将 原来的的前 r 行前 r 列,其是的前 r 列,其...原创 2021-10-05 17:18:25 · 762 阅读 · 0 评论 -
概率潜在语义分析(PLSA)(probabilistic latent semantic analysis)
概率潜在语义分析,听名字里边的‘概率’一词,就知道这和一般的统计(频数统计/tfidf 统计)不一样。我们知道LSA是对单词-文本矩阵(频数或tfidf组成的矩阵)进行奇异值分解,LSA的最重要的中心思想就是引入话题维度,将一个文本的单词向量降维转化为话题向量,一是解决了稀疏矩阵中很多 0 值带来的计算文本相似度不准确的问题,二是解决了单词的多词一义性和一词多义性的问题。LSA可以参考之前写过的一篇 :潜在语义分析(LSA)(latent semantic analysis)那LSA的缺点是什么?在P.原创 2021-10-07 17:22:12 · 1754 阅读 · 0 评论 -
Jensen不等式证明
凸函数(Convex Functions)凸函数的定义1如下:如下图所示:严格凸函数:函数曲线位于由点和连接而成的直线下方。凸函数:函数曲线不超过由点和连接而成的直线。定理1:如果某函数在某个区间二阶可导且二阶导数非负,那么这个函数在该区间是凸的。其中 twice differentiable 指的是二阶可导。关于这个定理的证明如下:推论1:-ln(x) 在 (0,∞) 上是严格凸函数。证明如下:其中的 Definition 2是凹...原创 2021-10-14 15:54:28 · 9126 阅读 · 0 评论 -
极大似然估计、贝叶斯估计、极大后验概率估计
在概率论里,经常能听到极大似然估计和贝叶斯估计这两个词,今天打算好好理解一下。首先我问了自己两个问题。1、‘极大似然估计’ 、‘贝叶斯估计’ 和 '极大后验概率估计',这三个词里,都有 ‘估计‘ 两字 ,听起来像是用来估计某个我们不知道的未知的东西,那么是用来估计啥呢?2、‘极大似然’ 和 ‘贝叶斯’ 到底有什么不同呢?首先可以回答第一个问题,这两方法用来估计未知的 ‘概率分布的参数’。对于第二个问题,极大似然估计和贝叶斯估计是概率论中两大派的产物,分别是频率学派和贝叶斯学派。..原创 2021-10-17 00:29:05 · 1657 阅读 · 1 评论 -
EM(期望最大)算法推导以及实例计算
EM算法是一种优化算法。它应用的场景是含有隐变量的概率模型的极大似然估计或极大后验概率估计,它是极大似然估计或极大后验概率估计的具体实现方法。这篇文章我们仅讨论极大似然估计,极大后验概率估计与其类似。1、含有隐变量的概率模型隐:观测不到。我们以三硬币模型为例。假设有3枚硬币,分别记做,,。这些硬币正面出现的概率分别是,,。进行如下掷硬币实验:先掷硬币,根据其结果选出硬币或硬币;然后掷选出的硬币,出现正面记做1,出现反面记做0;独立重复次实验,假设观测结果如下:1,1,...原创 2021-10-21 15:44:03 · 1491 阅读 · 0 评论 -
pLSA参数估计的EM算法推导
pLSA 可参考概率潜在语义分析(PLSA)(probabilistic latent semantic analysis)EM算法可参考EM(期望最大)算法推导以及实例计算拉格朗日乘子法可参考如何理解拉格朗日乘子法?好啦,下面开始做一个简单的推导。首先我们先回顾一个 pLSA,以生成模型为例。生成模型假设在话题给定条件下,单词和文本条件独立,即:设单词集合为,文本集合为,话题集合为。给定单词-文本共现数据,,。为单词在文本中...原创 2021-10-23 22:04:20 · 766 阅读 · 0 评论 -
潜在狄利克雷分配(LDA)(latent Dirichlet allocation)
多项分布:假设重复进行 次独立随机试验,每次实验可能出现的结果有 种,第种结果出现的次数为,第种 结果出现的概率为。如果用随机变量 表示实验所有可能出现结果的次数,其中表示第种结果出现的次数,那么随机变量服从多项分布。具体的数学定义如下:若多元离散随机变量的概率质量函数为 :其中,,。则称随机变量服从参数为 的多项分布,计做。多项分布的两个特例,二项分布和类别分布多项分布有两个特例,一个是二项分布,一个是类别分布。二项分布:当实验可...原创 2021-10-25 15:57:55 · 3417 阅读 · 0 评论
分享