图1: DPMM(Dirchlet process mixture model)
以上为DP对应的图模型,基本分布为G0,这里假设是一个高斯模型(可以是连续或者离散),
G~DP(/alpha0, G0),G为随机生成的一个DP,构造的过程即为参见前一篇博客中的Strick break过程。可以看出,G为一个离散的无限维分布(也就是随机过程)
/thetai ~G,这个抽取过程可以参见前文中的polya urn或者CRP,这里每个theta值即为对应球的颜色,当然也可以对应于多维随机变量
xi~P(/thetai),就是根据一组参数生成对应分布的过程了
可以对比一下LDA。当然这里只对应于单个文档的情况,LDA其实更类似于以下的HDP
在http://blog.youkuaiyun.com/windows2/article/details/10426383对应的LDA图中,
G相当于LDA中的/theta,/theta相当于LDA中的Zm,n(或者对应的参数/phi_z), xi相当于LDA中的wm,n.
图2:Hierarchical Dirchlet process
这个过程比上图DP增加了1

本文介绍了DPMM(Dirchlet Process Mixture Model)和HDP(Hierarchical Dirchlet Process)两种非参数贝叶斯模型。DPMM通过Dirchlet过程生成无限维分布,用于数据建模。HDP在此基础上增加一层,使得不同子分布共享相同的定义域,具有更强的泛化能力,适用于多文档集合分析。HDP的Chinese Restaurant Franchise比喻帮助理解模型背后的随机过程。
最低0.47元/天 解锁文章
4602

被折叠的 条评论
为什么被折叠?



