来自于师徒网 刘鹏的讲课,确实不错,笔记记录一下

词包模型
概率图模型的一些说明:
实心点:观察到的 空心点:变量
有向直线:概率依存关系 间隔的节点条件独立
框框:框内重复的次数
PI:主题先验的分布 z:用于描述文档的隐含的主题,sitak:K个主题里面词的分布
PLSI和LDA的区别,LDA在先验分布前又添加了先验分布,很自然的,因为w,z是multinomial分布的,pi和sita自然就是Dirichlet分布的了。
Gap来自于03年的sigir,z是多维Gamma分布(norm后变为Dirichlet分布),不要求topic和为1(若干的topic上都有意义),缺点EM过程是近似的

LDA的解法是经验贝叶斯的一个特例,从LSI到LDA属于经验贝叶斯的过程(呵呵,该补补概率统计了)。

不能用EM的方法的可以采用Deterministic inference(确定性方法,不保证解,修改代码快)或者Probabilistic inference(采样方法,保证解,慢)来做
Deterministic inference 因为在工程上从EM代码修改为VBEM,非常容易,所以虽然性能一般,但是还是有用的。
前两页的小结:PLSI按照贝叶斯的想法,为了平滑其参数加上两个超参数,超参数alpha beta生成参数的方式,采用共轭先验,multinomial的共轭先验自然是Dirichlet分布,再使用经验贝叶斯的方法论求alpha 和beta,该方法论原始模型PLSI不是指数模型,是混合分布,em解决不了,所以采用以上的两种方法。

在实际的情况下,主要还是采用监督的LDA,因为主题要能让广告主懂。
广告的主题一般为层次的,所以可以用层次的LDA指导学习。
本文深入探讨了词包模型与概率图模型的概念,包括观察、变量、条件独立等核心元素。详细阐述了LDA与PLSI的区别,以及LDA在先验分布上的改进。还介绍了LDA的解法,包括经验贝叶斯和确定性/概率性推理方法。此外,文章强调了在实际应用中选择监督LDA的重要性,并讨论了层次LDA的应用。
371

被折叠的 条评论
为什么被折叠?



