计算广告学习笔记3.4 受众定向-主题模型

最新推荐文章于 2022-05-03 15:53:39 发布

原创最新推荐文章于 2022-05-03 15:53:39 发布 · 1.6k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

计算广告专栏收录该内容

41 篇文章

订阅专栏

本文深入探讨了词包模型与概率图模型的概念，包括观察、变量、条件独立等核心元素。详细阐述了LDA与PLSI的区别，以及LDA在先验分布上的改进。还介绍了LDA的解法，包括经验贝叶斯和确定性/概率性推理方法。此外，文章强调了在实际应用中选择监督LDA的重要性，并讨论了层次LDA的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

来自于师徒网刘鹏的讲课，确实不错，笔记记录一下

词包模型

概率图模型的一些说明：

实心点：观察到的空心点：变量

有向直线：概率依存关系间隔的节点条件独立

框框：框内重复的次数

PI：主题先验的分布 z：用于描述文档的隐含的主题，sitak：K个主题里面词的分布

PLSI和LDA的区别，LDA在先验分布前又添加了先验分布，很自然的，因为w，z是multinomial分布的，pi和sita自然就是Dirichlet分布的了。

Gap来自于03年的sigir，z是多维Gamma分布（norm后变为Dirichlet分布），不要求topic和为1（若干的topic上都有意义），缺点EM过程是近似的

LDA的解法是经验贝叶斯的一个特例，从LSI到LDA属于经验贝叶斯的过程（呵呵，该补补概率统计了）。

不能用EM的方法的可以采用Deterministic inference（确定性方法，不保证解，修改代码快）或者Probabilistic inference（采样方法，保证解，慢）来做

Deterministic inference 因为在工程上从EM代码修改为VBEM，非常容易，所以虽然性能一般，但是还是有用的。

前两页的小结：PLSI按照贝叶斯的想法，为了平滑其参数加上两个超参数，超参数alpha beta生成参数的方式，采用共轭先验，multinomial的共轭先验自然是Dirichlet分布，再使用经验贝叶斯的方法论求alpha 和beta，该方法论原始模型PLSI不是指数模型，是混合分布，em解决不了，所以采用以上的两种方法。

在实际的情况下，主要还是采用监督的LDA，因为主题要能让广告主懂。

广告的主题一般为层次的，所以可以用层次的LDA指导学习。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。