计算广告学习笔记3.4 受众定向-主题模型

本文深入探讨了词包模型与概率图模型的概念,包括观察、变量、条件独立等核心元素。详细阐述了LDA与PLSI的区别,以及LDA在先验分布上的改进。还介绍了LDA的解法,包括经验贝叶斯和确定性/概率性推理方法。此外,文章强调了在实际应用中选择监督LDA的重要性,并讨论了层次LDA的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

来自于师徒网 刘鹏的讲课,确实不错,笔记记录一下

词包模型

概率图模型的一些说明:

实心点:观察到的 空心点:变量

有向直线:概率依存关系 间隔的节点条件独立

框框:框内重复的次数

PI:主题先验的分布 z:用于描述文档的隐含的主题,sitak:K个主题里面词的分布

PLSI和LDA的区别,LDA在先验分布前又添加了先验分布,很自然的,因为w,z是multinomial分布的,pi和sita自然就是Dirichlet分布的了。

Gap来自于03年的sigir,z是多维Gamma分布(norm后变为Dirichlet分布),不要求topic和为1(若干的topic上都有意义),缺点EM过程是近似的


LDA的解法是经验贝叶斯的一个特例,从LSI到LDA属于经验贝叶斯的过程(呵呵,该补补概率统计了)。


不能用EM的方法的可以采用Deterministic inference(确定性方法,不保证解,修改代码快)或者Probabilistic inference(采样方法,保证解,慢)来做

Deterministic inference 因为在工程上从EM代码修改为VBEM,非常容易,所以虽然性能一般,但是还是有用的。

前两页的小结:PLSI按照贝叶斯的想法,为了平滑其参数加上两个超参数,超参数alpha beta生成参数的方式,采用共轭先验,multinomial的共轭先验自然是Dirichlet分布,再使用经验贝叶斯的方法论求alpha 和beta,该方法论原始模型PLSI不是指数模型,是混合分布,em解决不了,所以采用以上的两种方法。


在实际的情况下,主要还是采用监督的LDA,因为主题要能让广告主懂。

广告的主题一般为层次的,所以可以用层次的LDA指导学习。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值