
topic model
文章平均质量分 64
xianlingmao
这个作者很懒,什么都没留下…
展开
-
话题模型(topic model)的提出及发展历史
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet alloc原创 2011-12-16 10:03:55 · 51090 阅读 · 3 评论 -
Topic Model的分类和设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档,先原创 2011-12-13 17:12:14 · 25767 阅读 · 3 评论 -
什么叫共轭先验或者共轭分布?
如果你读过贝叶斯学习方面的书或者论文,想必是知道共轭先验这个名词的。现在假设你闭上眼睛,你能准确地说出共轭分布是指哪个分布和哪个分布式共轭的吗?我之前就常常把这个关系弄错,现在记录如下,以加强印象。贝叶斯学派和频率学派的区别之一是特别重视先验信息对于inference的影响,而引入先验信息的手段有“贝叶斯原则“(即把先验信息当着均匀分布)等四大类其中有重要影响的一类是:共轭先验原创 2012-03-10 16:58:00 · 72788 阅读 · 2 评论 -
EM算法
我所知道的最简单的EM算法推导:预备知识: jessen不等式这里不详细讲解Jessen不等式,大家可以google,这里只大概讲解其意思,就是对于凹函数f(x)(即大肚子向上,口子向下,国外和国内的定义不同,特此注明),f(E(x)) >= E(f(x)); 若是凸函数,不等号的方向相反。等号成立的条件是x是常变量,即各个值相等推导: 假设X是已知变量,H是隐藏变量,\原创 2012-03-10 17:38:07 · 15843 阅读 · 3 评论 -
Dirichlet distribution的两种理解方式
Dirichlet distribution,对于做主题模型(topic model)研究特别的重要,因为很多模型之中都需要它作为先验分布。本来这个分布Wikipedia和大多数的教科书已经讲得非常清楚,没有必要在这里多介绍,但是最近在理解Dirichlet process过程中,发现从另外一个角度来理解Dirichlet Distribution,对于理解Dirichlet Process有原创 2012-04-22 20:22:14 · 25469 阅读 · 1 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。原创 2012-06-15 17:02:41 · 24826 阅读 · 6 评论