1. LDA解决了什么问题
- 通过观测到的文档和词样本,反推文档的主题分布,并求解该分布的参数。所有的文档主题分布(多项式分布)均由迪利克雷先验概率分布生成。
- 对一篇新来的文档,推断它的主题分布。
2. LDA模型中文档生成过程
首先确定要生成M篇文档,每篇文档有Nm个词,然后:
-
从超参数为α的迪利克雷分布中取样生成文档 i 的主题的多项式分布 θi
-
从 θi 中取样生成文档 i 中第 j 个词的主题 zi,j
-
从超参数为β的迪利克雷分布中以 zi,j 为条件取样,生成第 j 个词对应的多项式分布 φ|zi,j
-
从φ|zi,j中取样生成词汇wi,j
-
重复上述过程,直到生成完M篇文档。
通过上帝掷骰子的游戏来理解,可以描述为下述过程:
- 上帝有两坛装有无穷多骰子的罐子,一罐doc-topic,每个骰子X面(共X个主题),一罐topic-word,每个骰子Y面(词典里一共Y个词)
- 上帝首先从topic-word罐头里抽N个骰子出来,编号1到N
- 生成每篇文档前,先从doc-topic罐子里抽一个骰子出来
- 重复投掷这个骰子N次,每次生成一个主题K,然后从N个topic-word骰子里选择编号为K的骰子,生成一个词,重复上述过程直到该文档生成完毕
3. LDA模型参数求解(待补充)
LDA参数求解的对象是M篇文档对应的doc-topic分布{θ1 …… θM},以及每篇文档中N个词对应的topic-word分布{φ1|zi …… φN|zi}i 。由于LDA将这两个分布的参数都看成是有迪利克雷分布作为先验分布的随机变量,所以LDA的求解也可以看作是求两个迪利克雷先验概率分布的后验概率分布。
在贝叶斯推断问题中,一般采用的方法有采样方法或变分推断方法。因为采样的方法的一些优良性质:
- 采样是以真实数据为基础来近似目标分布,因此更精确;
- 采样过程相对简单,易于操作;
- 计算的推导过程也比变分方法简单很多
所以LDA模型现在主要使用Gibbs采样方法进行求解。
一般的采样方法求解后验概率的过程可以抽象为:
- 确定参数的先验分布
- 根据样本计算联合似然函数/概率密度函数
- 由样本、似然函数和先验概率分布求出后验概率分布的表达形式,其中后验概率∝先验概率×似然函数
- 用贝叶斯估计求参数的最优估计,使得贝叶斯期望损失最小
由于贝叶斯估计(详情见贝叶斯估计的数学推导)的求解公式中需要计算P(X)=∫ΘP(X∣θ)P(θ)dθP(X)=\int_{\Theta }P(X|\theta )P(\theta )d\thetaP(X)=∫ΘP(X∣θ)P(θ)dθ, 一般情况下是不可计算的。这时候就需要先验概率P(θ)P(\theta)P(θ)与后验概率P(θ∣X)P(\theta |X)P(θ∣X)是共轭分布,这样才能计算。
为什么可以使用采样方法求解?
我们求解LDA中迪利克雷分布的后验概率并不是真的关心这两个分布本身,而是希望基于这两个分布计算某些期望——具体来说就是主题和词的多项式分布的参数,所以可以使用采样的方法,通过样本来求一个逼近真实分布的近似分布,基于大数定理,只要样本量够大,这个近似分布的期望与真实分布的期望是差别是很小的。
4. 为什么LDA要使用迪利克雷分布作为先验概率分布?
由第三部分中可知,求解目标参数的后验概率计算需要通过先验概率分布×似然函数。LDA认为主题和词的分布均服从多项式分布,所以似然函数是多项式分布的似然函数,由于迪利克雷分布与多项式分布满足共轭分布的关系,故选择迪利克雷分布作为先验概率分布。
在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
具体到LDA中,即若先验分布满足迪利克雷分布,似然函数为多项式分布的似然函数,则两者相乘再归一化后得到的后验概率分布仍满足迪利克雷分布。这种性质的好处有:
- 能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后续分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。
- 一次变分推断得到的后验概率分布,可以作为下一次变分推断的先验概率分布,先验后验分布形式不变。这是Gibbs采样求解的前提条件。
5. 数学推导
5.1 贝叶斯公式
贝叶斯学派的最基本的观点是:任一个未知量 θ 都可看作一个随机变量,应该用一个概率分布去描述对 θ 的未知状况,这个概率分布是在抽样前就有关于 θ 的先验信息的概率陈述,这个概率分布被称为先验分布。
从贝叶斯观点看,样本
的产生要分两步进行,首先设想从先验分布 p(θ) 产生一个样本 θ’,这一步是“老天爷”做的,人们是看不到的,故用“设想”二字。第二步是从总体分布 p(X|θ’) 产生一个样本
,这个样本是具体的,人们能看得到的,此样本 X 发生的概率是与如下联合密度函数成正比。

这个联合密度函数是综合了总体信息和样本信息,常称为似然函数,记为 L(θ’) 。
由于 θ’ 是设想出来的,它仍然是未知的,它是按先验分布 p(θ) 产生的,要把先验信息进行综合,不能只考虑 θ’,而应对 θ 的一切可能加以考虑,故要用 p(θ) 参与进一步综合,所以样本 X 和参数 θ 的联合分布(三种可用的信息都综合进去了):

我们的任务是要对未知数 θ 作出统计推断,在没有样本信息时,人们只能根据先验分布对 θ 作出推断。在有样本观察值
之后,我们应该依据 p(X,θ) 对 θ 作出推断,为此我们把 p(X,θ) 作如下分解:

其中 p(X) 是 X 的边缘密度函数。

它与 θ 无关,p(X) 中不含 θ 的任何信息。因此能用来对 θ 作出推断的仅是条件分布 p(θ|X):

这就是贝叶斯公式的密度函数形式,在样本 X 给定下,θ 的条件分布被称为 θ 的后验分布。它是集中了总体、样本和先验等三种信息中有关 θ 的一切信息,而又是排除一切与 θ 无关的信息之后得到的结果,故基于后验分布 p(θ|X) 对 θ 进行统计推断是更合理的。
1万+

被折叠的 条评论
为什么被折叠?



