
LDA
zjxiaolu
当你的实力还不足以撑起你的野心的时候,请继续低头前行,提高你的实力!
展开
-
Latent Dirichlet Allocation (LDA)
from: http://blog.echen.me/2011/08/22/introduction-to-latent-dirichlet-allocation/ LDA是一种非监督机器学习技术,可以用来识别大规模文档集(document collection)或语料库(corpus)中潜藏的主题信息。它采用了词袋(bag of words)的方法,这种方法将每一篇文档视为一个转载 2015-04-14 00:07:33 · 789 阅读 · 0 评论 -
也说说LDA(Latent Dirichlet Allocation)——理论篇
LDA是个generative model,它首先从Dirichlet分布Dir(β)中抽取每个topic对应的参数,然后语料集D中第j篇文档的产生方式如下:1. 选择文档长度: N ~ Poission(ξ) ;2. 选择文档参数: θ ~ Dir(α) ;3. 按照以下方式选取文档中的每个词: (a) 选择一个topic: (b) 从W个转载 2015-04-14 01:06:00 · 1417 阅读 · 0 评论 -
学习Topic Model(主题模型)--Latent Dirichlet Allocation(LDA) 的一些摘要
主题模型是文本挖掘领域非常流行的方法,在文档分类、聚类中都 有大量的应用。实际上,LDA的训练过程很简单,只需要简单的计算就可以得到结果。Blei (2003)原始的LDA论文中使用的是变分法推导,用EM算法求解。方法比较难以理解,并且EM算法可能求解到的是局部最优解。由于现在基本都是用Gibbs Sampling的方法求解,我也主要阅读的是Gibbs方面的论文。 为了看懂LDA的论转载 2015-04-14 01:06:03 · 1078 阅读 · 0 评论 -
LDA(latent dirichlet allocation)的应用
主题模型LDA(latent dirichlet allocation)的应用还是很广泛的,之前我自己在检索、图像分类、文本分类、用户评论的主题词抽取等都用过,做feature、降维等。例如可以用主题维度来表示原来的字典维度,大大的降低了文本表示的维度。这其实也很deep learning中的对特征的抽象有点相似,通过一些聚类等的思想,将一些细粒度的特征组合到一个新的空间上去,例如主题空间。转载 2015-04-14 01:07:42 · 776 阅读 · 0 评论 -
Latent dirichlet allocation note
2 Latent Dirichlet Allocation IntroductionLDA是给文本建模的一种方法,它属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成文章。通过对文本的建模,我们可以对文本进行主题分类,判断相似度等。在90年代提出的LSA中,通过对向量空间进行降维,获得文本的潜在语义空间。在LDA中则是通过将文本映射到主题空间,即转载 2015-04-14 01:13:36 · 650 阅读 · 0 评论 -
Introduction to Latent Dirichlet Allocation
by Edwin Chenon Mon 22 August 2011IntroductionSuppose you have the following set of sentences:I like to eat broccoli and bananas.I ate a banana and spinach smoothie for break转载 2015-04-14 01:01:58 · 432 阅读 · 0 评论 -
Latent Dirichlet Allocation(LDA)主题模型理论
LDA是给文本建模的一种方法,属于生成模型。生成模型是指该模型可以随机生成可观测的数据,LDA可以随机生成一篇由N个主题组成的文章。通过对文本的建模,可以对文本进行主题分类,判断相似度等。LDA通过将文本映射到主题空间,即认为一篇文章有若干主题随机组成,从而获得文本间的关系。LDA模型有一个前提:bag of word。意思是认为文档就是一个词的集合,忽略任何语法或者出现顺序关系。生成一篇转载 2015-04-14 01:09:36 · 714 阅读 · 0 评论 -
Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析
变量说明:Dirichlet Allocation(LDA)主题模型算法实现及源码解析" title="Latent Dirichlet Allocation(LDA)主题模型算法实现及源码解析" style="margin:0px; padding:0px; border:0px; list-style:none">整个程序步骤如下图Dirichlet Allocation(LDA)转载 2015-04-14 01:10:32 · 1165 阅读 · 0 评论 -
LDA(Latent Dirichlet Allocation)主题模型算法
LDA整体流程先定义一些字母的含义:文档集合D,topic集合TD中每个文档d看作一个单词序列,wi表示第i个单词,设d有n个单词。(LDA里面称之为word bag,实际上每个单词的出现位置对LDA算法无影响)D中涉及的所有不同单词组成一个大集合VOCABULARY(简称VOC)LDA以文档集合D作为输入(会有切词,去停用词,取词干等常见的预处理,略去不表),希望训练出的两个转载 2015-04-14 01:11:50 · 610 阅读 · 0 评论