自己写一下lda,并实践。
看完变分,在回顾看下mcmc的视频
每个主题的模型:
对于主题ϕ来说ϕ={ϕ1,ϕ2,...,ϕK},对应每个单词的概率。类似于筛子每个面朝上的概率。
狄里克雷分布是多项分布参数的分布,ϕ是服从狄里克雷分布。
p(ϕ|β)=Γ(∑Kk=1βk)∏Kk=1Γ(βk)∏Kk=1ϕβk−1k
归一化部分就是:和的伽马除以伽马的积。乘以,贝塔与对应fai减一的指数。
每个文档的主题模型:
每个文档由多个主题组成:
θ={θ1,θ2,...,θM},对应文档中M个主题的概率分布。
同样的,这个主题分布也是服从狄里克雷分布的,也就是θ1,θ2时如何得到的,它们的值是什么,由狄里克雷分布给出它们的概率。
p(θ|α)=Γ(∑Mm=1αm)∏Mm=1Γ(αm)∏Mm=1θαm−1m
每个单词的主体模型:
每个文字到底属于哪个主题,也就是每产生一个单词之前,先要确定从哪个主题里面采样。也就是从θ中产生隐变量Z,表示单词对应的主题。
多项式分布:
p(n1,n2,...,nk)=n!∏ki=1pniini!,其中n1+n2+...+nk=n
多项式分布掷n次骰子,上面的采样是掷一次骰子。我们也叫作Z服从多项式分布。
每个单词的采样模型:
隐变量
同样从主题ϕ采样得到单词w也是服从多项式分布,掷一次骰子的结果。
::
::
参数设置成一个分布而不是固定的值,会容错性好点。
LDA=Latent Dirichlet Allocation。应该是指,参数的潜在分布是服从狄里克雷分布。