第14章 概率图模型
14.1 隐马尔可夫模型
概率模型(probabilistic model)提供了一种描述框架,将学习任务归结于计算变量的概率分布。
在概率模型中,利用已知变量推测未知变量的分布称为推断,其核心是如何基于可观测变量推测出未知变量的条件分布。
隐马尔可夫模型(Hidden Markov Model, HMM)是结构最简单的动态贝叶斯网(dynamic Bayesian network),主要用于时序数据建模。
马尔科夫链(Markov chain):系统下一刻的状态仅由当前状态决定,不依赖于以往的任何状态。
隐马尔可夫模型中的变量可分为两组。第一组是状态变量{y1,y2,…,yn}\left\{ y_{1},y_{2},\ldots,y_{n} \right\}{y1,y2,…,yn},其中yi∈Yy_{i}\mathcal{\in Y}yi∈Y表示第iii时刻的系统状态。第二组是观测变量{x1,x2,…,xn}\left\{ x_{1},x_{2},\ldots,x_{n} \right\}{x1,x2,…,xn},其中xi∈Xx_{i}\mathcal{\in X}xi∈X表示第iii时刻的观测值。系统多状态之间的转换为{s1,s2,…,sN}\left\{ s_{1},s_{2},\ldots,s_{N} \right\}{s1,s2,…,sN},假定其取值范围X={o1,o2,…,oM}\mathcal{X} = \left\{ o_{1},o_{2},\ldots,o_{M} \right\}X={o1,o2,…,oM},所有变量的联合概率分布为
P(x1,y1,…,xn,yn)=P(x1∣y1)∏i=2nP(yi∣yi−1)P(xi∣yi) P\left( x_{1},y_{1},\ldots,x_{n},y_{n} \right) = P\left( x_{1} \middle| y_{1} \right)\prod_{i = 2}^{n}{P\left( y_{i} \middle| y_{i - 1} \right)P\left( x_{i} \middle| y_{i} \right)} P(x1,y1,…,xn,yn)=P(x1∣y1)i=2∏nP(yi∣yi−1)P(xi∣yi)
状态转移概率:模型各个状态间转换的概率,通常记为矩阵A=[aij]N×NA = \left\lbrack a_{\text{ij}} \right\rbrack_{N \times N}A=[aij]N×N,其中
aij=P(yt+1=sj∣yt=si),1≤i,j≤N a_{\text{ij}} = P\left( y_{t + 1} = s_{j} \middle| y_{t} = s_{i} \right),1 \leq i,j \leq N aij=P(yt+1=sj∣yt=si),1≤i,j≤N
表示在任意时刻ttt,若状态为sis_{i}si,则下一时刻状态为sjs_{j}sj的概率。
输出观测概率:模型根据当前状态获得各个观测值的概率,通常记为矩阵B=[bij]N×MB = \left\lbrack b_{\text{ij}} \right\rbrack_{N \times M}B=[bij]N×M,其中
bij= P(xt=oj∣yt=si),1≤i≤N,1≤j≤M b_{\text{ij}} = \ P\left( x_{t} = o_{j} \middle| y_{t} = s_{i} \right),1 \leq i \leq N,1 \leq j \leq M bij= P(xt=oj∣yt=si),1≤i≤N,1≤j≤M
表示在任意时刻ttt,若状态为sis_{i}si,则观测值ojo_{j}oj被获取的概率。
初始状态概率:模型在初始时刻各状态出现的概率,通常记为π={π1,π2,…,πN}\pi = \left\{ \pi_{1},\pi_{2},\ldots,\pi_{N} \right\}π={π1,π2,…,πN},其中
πi=P(y1=si),1≤i≤N \pi_{i} = P\left( y_{1} = s_{i} \right),1 \leq i \leq N πi=P(y1=si),1≤i≤N
表示模型的初始状态为sis_{i}si的概率。
通过指定状态空间Y\mathcal{Y}Y、观测空间X\mathcal{X}X和上述三组参数,就能确定一个隐马尔可夫模型,通常用其参数λ=[A,B,π]\lambda = \left\lbrack A,B,\pi \right\rbrackλ=[A,B,π]来指代。给定隐马尔可夫模型λ\lambdaλ,按如下过程产生观测序列:
1、设置t=1t = 1t=1,并根据初始状态概率选择初始状态y1y_{1}y1
2、根据状态yty_{t}yt和输出观测概率B选择观测变量取值xtx_{t}xt
3、根据状态yty_{t}yt和状态转移矩阵A转移模型状态,即确定yt+1y_{t + 1}yt+1
4、若t<nt < nt<n,设置t=t+1t = t + 1t=t+1,并转到2步,否则停止
其中yt∈{s1,s2,…,sN}y_{t} \in \left\{ s_{1},s_{2},\ldots,s_{N} \right\}yt∈{s1,s2,…,sN}和xt∈{o1,o2,…,oM}x_{t} \in \left\{ o_{1},o_{2},\ldots,o_{M} \right\}xt∈{o1,o2,…,oM}分别为第ttt时刻的状态和观测值。
14.2 马尔可夫随机场
在马尔可夫随机场中,对于n个变量x={x1,x2,…,xn}x = \left\{ x_{1},x_{2},\ldots,x_{n} \right\}x={x1,x2,…,xn},所有团构成的集合为C\mathcal{C}C,与团Q∈CQ\mathcal{\in C}Q∈C对应的变量集合记为xQx_{Q}xQ,则联合概率P(x)P\left( x \right)P(x)定义为
P(x)=1Z∏Q∈CψQ(xQ) P\left( x \right) = \frac{1}{Z}\prod_{Q\mathcal{\in C}}^{}{\psi_{Q}\left( x_{Q} \right)} P(x)=Z1Q∈C∏ψQ(xQ)
其中ψQ\psi_{Q}ψQ为与团Q对应的势函数,用于对团Q中的变量关系进行建模,Z=∑x∏Q∈CψQ(xQ)Z = \sum_{x}^{}{\prod_{Q\mathcal{\in C}}^{}{\psi_{Q}\left( x_{Q} \right)}}Z=∑x∏Q∈CψQ(xQ)为规范化因子,以确保P(x)P\left( x \right)P(x)是被正确定义的概率。
假定所有极大团构成的集合为C∗\mathcal{C}^{*}C∗,则有
P(x)=1Z∗∏Q∈C∗ψQ(xQ) P\left( x \right) = \frac{1}{Z^{*}}\prod_{Q \in \mathcal{C}^{*}}^{}{\psi_{Q}\left( x_{Q} \right)} P(x)=Z∗1Q∈C∗∏ψQ(xQ)
其中Z∗=∑x∏Q∈C∗ψQ(xQ)Z^{*} = \sum_{x}^{}{\prod_{Q \in \mathcal{C}^{*}}^{}{\psi_{Q}\left( x_{Q} \right)}}Z∗=∑x∏Q∈C∗ψQ(xQ)为规范化因子
全局马尔可夫性(global Markov property):给定两个变量子集的分离集,则这两个变量子集条件独立。
局部马尔可夫性(local Markov property):给定某变量的邻接变量,则该变量条件独立于其他变量
成对马尔可夫性(pairwise Markov property):给定所有其他变量,两个非邻接变量条件独立。
14.3 条件随机场
条件随机场(Conditional Random Field,CRF)是一种判别式无向图模型。条件随机场对多个变量在给定观测值后的条件概率进行建模。
令G=⟨V,E⟩G = \left\langle V,E \right\rangleG=⟨V,E⟩表示结点于标记变量yyy中的元素一一对应的无向图,yvy_{v}yv表示与结点vvv对应的标记变量,n(v)n\left( v \right)n(v)表示结点vvv的邻接结点,若图GGG的每个变量yvy_{v}yv都满足马尔可夫性,即
P{yv∣x,y\{v}}=P(yv∣x,yn(v)) P\left\{ y_{v} \middle| x,y\backslash\left\{ v \right\} \right\} = P\left( y_{v} \middle| x,y_{n\left( v \right)} \right) P{yv∣x,y\{v}}=P(yv∣∣x,yn(v))
则(y,x)\left( y,x \right)(y,x)构成一个条件随机场。
在条件随机场中,通过选用指数势函数并引入特征函数,条件概率被定义为
P(y∣x)=1Zexp(∑j∑i=1n−1λjtj(yi+1,x,i)+∑k∑i=1nμksk(yi,x,i)) P\left( y \middle| x \right) = \frac{1}{Z}\exp\left( \sum_{j}^{}{\sum_{i = 1}^{n - 1}{\lambda_{j}t_{j}\left( y_{i + 1},x,i \right)}} + \sum_{k}^{}{\sum_{i = 1}^{n}{\mu_{k}s_{k}\left( y_{i},x,i \right)}} \right) P(y∣x)=Z1exp(j∑i=1∑n−1λjtj(yi+1,x,i)+k∑i=1∑nμksk(yi,x,i))
其中tj(yi+1,x,i)t_{j}\left( y_{i + 1},x,i
\right)tj(yi+1,x,i)是定义在观测序列的两个相邻标记位置上的转移特征函数(transition feature
function),用于刻画相邻标记变量之间的相关关系以及观测序列对它们的影响,sk(yi,x,i)s_{k}\left(
y_{i},x,i \right)sk(yi,x,i)是定义在观测序列的标记位置iii上的状态特征函数(status feature function),用于刻画观测序列对标记变量的影响,λj,μk\lambda_{j},\mu_{k}λj,μk为参数,ZZZ为规范化因子。
14.4 学习与推断
基于概率图模型定义的联合概率分布,对目标变量的边际分布(marginal distribution)或以某些可观测变量为条件的条件分布进行推测。
边际分布:对无关变量求和或积分后得到结果。
对概率图模型,还需确定具体分布的参数,使用极大似然估计或最大后验概率估计求解。
假设图模型所对应的变量集x={x1,x2,…,xN}x = \left\{ x_{1},x_{2},\ldots,x_{N} \right\}x={x1,x2,…,xN}能分为xEx_{E}xE和xFx_{F}xF两个不相交的变量集,推断问题的目标就是计算边际概率P(xE)P\left( x_{E} \right)P(xE)或条件概率P(xF∣xE)P\left( x_{F} \middle| x_{E} \right)P(xF∣xE)。由条件概率定义有
P(xF∣xE)=P(xE,xF)P(xE)=P(xE,xF)∑xFP(xE,xF) P\left( x_{F} \middle| x_{E} \right) = \frac{P\left( x_{E},x_{F} \right)}{P\left( x_{E} \right)} = \frac{P\left( x_{E},x_{F} \right)}{\sum_{x_{F}}^{}{P\left( x_{E},x_{F} \right)}} P(xF∣xE)=P(xE)P(xE,xF)=∑xFP(xE,xF)P(xE,xF)
其中联合概率P(xE,xF)P\left( x_{E},x_{F} \right)P(xE,xF)可基于概率图模型获得。
计算边际分布
P(xE)=∑xFP(xE,xF) P\left( x_{E} \right) = \sum_{x_{F}}^{}{P\left( x_{E},x_{F} \right)} P(xE)=xF∑P(xE,xF)
14.4.1 变量消去
精确推断的变质是一类动态规划算法,利用图模型所描述的条件独立性来削减计算目标概率值所需的计算量。
缺点:若计算多个边际分布,重复使用变量消去法将会造成大量的冗余计算。
14.4.2 信念传播
信念传播(Belief Propagation)算法将变量消去法中的求和操作看作一个消息传递过程,较好地解决了求解多个边际分布时的重复计算问题。
变量消去法通过求和操作
mij(xj)=∑xiψ(xi,xj)∏k∈n(i)\jmki(xi) m_{\text{ij}}\left( x_{j} \right) = \sum_{x_{i}}^{}{\psi\left( x_{i},x_{j} \right)\prod_{k \in n\left( i \right)\backslash j}^{}{m_{\text{ki}}\left( x_{i} \right)}} mij(xj)=xi∑ψ(xi,xj)k∈n(i)\j∏mki(xi)
消去变量xix_{i}xi,其中n(i)n\left( i \right)n(i)表示结点xix_{i}xi的邻接结点。
在信念传播算法中,一个结点仅在接收到来自其他所有结点的消息后才能向另一个结点发送消息,且结点的边际分布正比于它所接收的信息的乘积,即
P(xi)∝∏k∈n(i)mki(xi) P\left( x_{i} \right) \propto \prod_{k \in n\left( i \right)}^{}{m_{\text{ki}}\left( x_{i} \right)} P(xi)∝k∈n(i)∏mki(xi)
若图结构中没有环,则信念传播算法经过两个步骤即可完成所有信息传递,进而能计算所有变量上的边际分布:
1、指定一个根结点,从所有叶结点开始向根结点传递消息,直到根结点收到所有邻接结点的消息
2、从根结点开始向叶结点传递消息,直到所有叶结点均受到消息
14.5 近似推断
14.5.1 MCMC采样
假定目标是计算函数f(x)f\left( x \right)f(x)在概率密度函数p(x)p\left( x \right)p(x)下的期望
Ep(f)=∫f(x)p(x)dx \mathbb{E}_{p}\left( f \right) = \int_{}^{}{f\left( x \right)p\left( x \right)\text{dx}} Ep(f)=∫f(x)p(x)dx
则可根据p(x)p\left( x \right)p(x)抽取一组样本{x1,x2,…,xN}\left\{ x_{1},x_{2},\ldots,x_{N} \right\}{x1,x2,…,xN},然后计算f(x)f\left( x \right)f(x)在这些样本上的均值
f^=1N∑i=1Nf(xi) \hat{f} = \frac{1}{N}\sum_{i = 1}^{N}{f\left( x_{i} \right)} f^=N1i=1∑Nf(xi)
概率图模型中最常用的采样技术是马尔科夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)方法。
给定连续x∈Xx\mathcal{\in X}x∈X的概率密度函数p(x)p\left( x \right)p(x),xxx在区间A中的概率可计算为
P(A)=∫Ap(x)dx P\left( A \right) = \int_{A}^{}{p\left( x \right)\text{dx}} P(A)=∫Ap(x)dx
若有函数f:X↦Rf:\mathcal{X}\mathbb{\mapsto R}f:X↦R,则可计计算f(x)f\left( x \right)f(x)的期望
p(f)=Ep[f(X)]=∫xf(x)p(x)dx p\left( f \right) = \mathbb{E}_{p}\left\lbrack f\left( \mathcal{X} \right) \right\rbrack = \int_{x}^{}{f\left( x \right)p\left( x \right)\text{dx}} p(f)=Ep[f(X)]=∫xf(x)p(x)dx
MCMC先构造服从ppp分布的独立分布随机变量{x1,x2,…,xN}\left\{ x_{1},x_{2},\ldots,x_{N} \right\}{x1,x2,…,xN},再得无偏估计
p^(f)=1N∑i=1Nf(xi) \hat{p}\left( f \right) = \frac{1}{N}\sum_{i = 1}^{N}{f\left( x_{i} \right)} p^(f)=N1i=1∑Nf(xi)
假定平稳马尔科夫链TTT的状态转移概率为T(x∣x′)T\left( x \middle| x' \right)T(x∣x′),ttt时刻状态的分布为p(xt)p\left( x^{t} \right)p(xt),则若在某时刻马尔科夫链满足平稳条件
p(xt)T(xt−1∣xt)=p(xt−1)T(xt∣xt−1) p\left( x^{t} \right)T\left( x^{t - 1} \middle| x^{t} \right) = p\left( x^{t - 1} \right)T\left( x^{t} \middle| x^{t - 1} \right) p(xt)T(xt−1∣∣xt)=p(xt−1)T(xt∣∣xt−1)
则p(x)p\left( x \right)p(x)是该马尔科夫链的平稳分布,且马尔科夫链在满足该条件时已收敛到平稳状态。
Metropolis-Hastings算法
基于拒绝采样(reject sampling)来逼近平稳分布ppp。算法每次根据上一轮采样结果xt−1x^{t - 1}xt−1来采样获得候选状态样本x∗x^{*}x∗,但这个候选样本回忆一定的概率被拒绝掉。假定从状态xt−1x^{t- 1}xt−1到状态x∗x^{*}x∗的转移概率为Q(x∗∣xt−1)A(x∗∣xt−1)Q\left( x^{*} \middle| x^{t - 1} \right)A\left( x^{*} \middle| x^{t - 1} \right)Q(x∗∣∣xt−1)A(x∗∣∣xt−1),其中Q(x∗∣xt−1)Q\left( x^{*} \middle| x^{t - 1} \right)Q(x∗∣∣xt−1)是用户给定的先验概率,A(x∗∣xt−1)A\left( x^{*} \middle| x^{t - 1} \right)A(x∗∣∣xt−1)是x∗x^{*}x∗被接受的概率。若x∗x^{*}x∗最终收敛到平稳状态,则有
p(xt−1)Q(x∗∣xt−1)A(x∗∣xt−1)=p(x∗)Q(xt−1∣x∗)A(xt−1∣x∗) p\left( x^{t - 1} \right)Q\left( x^{*} \middle| x^{t - 1} \right)A\left( x^{*} \middle| x^{t - 1} \right) = p\left( x^{*} \right)Q\left( x^{t - 1} \middle| x^{*} \right)A\left( x^{t - 1} \middle| x^{*} \right) p(xt−1)Q(x∗∣∣xt−1)A(x∗∣∣xt−1)=p(x∗)Q(xt−1∣∣x∗)A(xt−1∣∣x∗)
将接受率设置为
A(x∗∣xt−1)=min(1,p(x∗)Q(xt−1∣x∗)p(xt−1)Q(x∗∣xt−1))
A\left( x^{*} \middle| x^{t - 1} \right) = \min\left( 1,\frac{p\left( x^{*} \right)Q\left( x^{t - 1} \middle| x^{*} \right)}{p\left( x^{t - 1} \right)Q\left( x^{*} \middle| x^{t - 1} \right)} \right)
A(x∗∣∣xt−1)=min(1,p(xt−1)Q(x∗∣xt−1)p(x∗)Q(xt−1∣∣x∗))
吉布斯采样(Gibbs sampling)
假定x={x1,x2,…,xN}x = \left\{ x_{1},x_{2},\ldots,x_{N} \right\}x={x1,x2,…,xN},目标分布为p(x)p\left( x \right)p(x),在初始化xxx的取值后,通过循环执行以下步骤来完成采样:
1、随机或以某个次序选取某变量xix_{i}xi
2、根据xxx中除xix_{i}xi之外是变量的现有取值,计算条件概率p(xi∣xi‾)p\left( x_{i} \middle| x_{\overset{\overline{}}{i}} \right)p(xi∣∣∣xi),其中xi‾={x1,x2,…xi−1,xi+1,…,xN}x_{\overset{\overline{}}{i}} = \left\{ x_{1},x_{2},\ldots x_{i- 1},x_{i + 1},{\ldots,x}_{N} \right\}xi={x1,x2,…xi−1,xi+1,…,xN}
3、根据p(xi∣xi‾)p\left( x_{i} \middle| x_{\overset{\overline{}}{i}} \right)p(xi∣∣∣xi)对变量xix_{i}xi采样,用采样值代替原值
14.5.2 变分推断
变分推断通过使用已知简单分布来逼近需推断的复杂分布,并通过限制近似分布的类型,从而得到一种局部最优、但具有确定解的近似后验分布。
变量xxx的联合分布的概率密度函数为
p(x∣Θ)=∏i=1N∑zp(xi,z∣Θ) p\left( x \middle| \Theta \right) = \prod_{i = 1}^{N}{\sum_{z}^{}{p\left( x_{i},z \middle| \Theta \right)}} p(x∣Θ)=i=1∏Nz∑p(xi,z∣Θ)
所对应的对数似然函数为
lnp(x∣Θ)=∑i=1Nln{∑zp(xi,z∣Θ)} \ln{p\left( x \middle| \Theta \right) = \sum_{i = 1}^{N}{\ln\left\{ \sum_{z}^{}{p\left( x_{i},z \middle| \Theta \right)} \right\}}} lnp(x∣Θ)=i=1∑Nln{z∑p(xi,z∣Θ)}
其中x={x1,x2,…,xN}x = \left\{ x_{1},x_{2},\ldots,x_{N} \right\}x={x1,x2,…,xN},Θ\ThetaΘ是xxx与zzz服从的分布参数。
用EM算法:在E步,根据ttt时刻的参数Θt\Theta^{t}Θt对p(z∣x,Θ)p\left( z \middle|
x,\Theta \right)p(z∣x,Θ)进行推断,并计算联合似然函数p(,z∣Θ)p\left( ,z \middle| \Theta
\right)p(,z∣Θ);在M步,基于E步的结果进行最大化寻优,即对关于变量Θ\ThetaΘ的函数Q(Θ;Θt)\mathcal{Q}\left(
\Theta;\Theta^{t} \right)Q(Θ;Θt)进行最大化从而求取
近似分布
q(z)=lnp(x)=L(q)+KL(q∣∣p ) q\left( z \right) = \ln{p\left( x \right)}\mathcal{= L}\left( q \right) + KL\left( q \middle| \left| p \right.\ \right) q(z)=lnp(x)=L(q)+KL(q∣∣p )
其中
L(q)=∫q(z)ln{p(x,z)q(z)}dz \mathcal{L}\left( q \right) = \int_{}^{}{q\left( z \right)\ln\left\{ \frac{p\left( x,z \right)}{q\left( z \right)} \right\}}dz L(q)=∫q(z)ln{q(z)p(x,z)}dz
KL(q∣∣p )=−∫q(z)lnp(z∣x)q(z) dz \text{KL}\left( q \middle| \left| p \right.\ \right) = - \int_{}^{}{q\left( z \right)\ln\frac{p\left( z \middle| x \right)}{q\left( z \right)}}\ dz KL(q∣∣p )=−∫q(z)lnq(z)p(z∣x) dz
14.6 话题模型
话题模型(topic model):是一簇生成式有向图模型。主要用于处理离散型的数据。
词:待处理数据的基本离散单元
文档:待处理的数据对象,它由一组词组成,这些词在文档中是不计顺序的
话题:表示一个概念,具体表示为一系列相关的词,以及它们在该概念下出现的频率。
隐狄利克雷分配模型(Latent Dirichlet Allocation, LDA)
用向量Θt∈RK\Theta_{t} \in \mathbb{R}^{K}Θt∈RK表示文档ttt中所包含的每个话题的比例,Θt,k\Theta_{t,k}Θt,k表示文档ttt中包含话题kkk的比例,进而通过下面的步骤由话题生成文档ttt:
1、根据参数为α\alphaα的狄利克雷分布随机采样一个话题分布Θt\Theta_{t}Θt
2、按如下步骤生成文档中的NNN个词:
(a)、根据Θt\Theta_{t}Θt进行话题指派,得到文档ttt中词nnn的话题zt,nz_{t,n}zt,n
(b)、根据指派的话题所对应的词频分布βk\beta_{k}βk(依赖参数η\etaη)随机采样生成词
LDA模型对应的概率分布为
p(W,z,β,Θ∣α,η)=∏t=1Tp(Θt∣α)∏i=1Kp(βk∣η)(∏n=1NP(ωt,n∣zt,n,βk)P(zt,n∣Θt)) p\left( W,z,\beta,\Theta \middle| \alpha,\eta \right) = \prod_{t = 1}^{T}{p\left( \Theta_{t} \middle| \alpha \right)\prod_{i = 1}^{K}{p\left( \beta_{k} \middle| \eta \right)\left( \prod_{n = 1}^{N}{P\left( \omega_{t,n} \middle| z_{t,n},\beta_{k} \right)}P\left( z_{t,n} \middle| \Theta_{t} \right) \right)}} p(W,z,β,Θ∣α,η)=t=1∏Tp(Θt∣α)i=1∏Kp(βk∣η)(n=1∏NP(ωt,n∣zt,n,βk)P(zt,n∣Θt))
其中p(Θt∣α)p\left( \Theta_{t} \middle| \alpha \right)p(Θt∣α)和p(βk∣η)p\left( \beta_{k} \middle| \eta\right)p(βk∣η)通常分别设置为以α\alphaα和η\etaη为参数的KKK维和NNN维狄利克雷分布,词频向量ωi(i=1,2,…,T)\omega_{i}\left(i = 1,2,\ldots,T \right)ωi(i=1,2,…,T)
给定训练数据W={ω1,ω2,…,ωT}W = \left\{ \omega_{1},\omega_{2},\ldots,\omega_{T} \right\}W={ω1,ω2,…,ωT},LDA的模型参数可通过极大似然法估计,即寻找α\alphaα和η\etaη以最大化对数似然
LL(α,η)=∑t=1Tlnp(ωt∣α,η) \text{LL}\left( \alpha,\eta \right) = \sum_{t = 1}^{T}{\ln{p\left( \omega_{t} \middle| \alpha,\eta \right)}} LL(α,η)=t=1∑Tlnp(ωt∣α,η)
若模型已知,即参数α\alphaα和η\etaη已确定,则根据词频ωt,n\omega_{t,n}ωt,n来推断文档集所对应的话题结构可通过求解
p(z,β,Θ∣W,α,η)=p(W,z,β,Θ∣α,η)p(W∣α,η) p\left( z,\beta,\Theta \middle| W,\alpha,\eta \right) = \frac{p\left( W,z,\beta,\Theta \middle| \alpha,\eta \right)}{p\left( W \middle| \alpha,\eta \right)} p(z,β,Θ∣W,α,η)=p(W∣α,η)p(W,z,β,Θ∣α,η)