
LDA
xyqzki
wahahahaahahahahah
展开
-
pLSA与LDA中的parameter estimation笔记
1. pLSA中 是用MLE or MAP来做parameter estimation的,即把p(z|w) 看做a unknown function of z, i.e. f(z), 求一个optimal z. 这个是point estimator2. 在LDA中,求p(z|w)是用bayesian inference。 即求p(z|w)的分布,将其看做一个random variable,不同原创 2013-08-31 23:24:46 · 1007 阅读 · 0 评论 -
Topic Model Gibbs Sampling Inference 步骤
1. difference between hidden variables and hyperparameter2. procudrestep 1: the complete-data likelihood, given hyperparameterp(w, z, theta, pi | alpha, beta)step 2: the observed data原创 2014-12-30 21:09:06 · 865 阅读 · 0 评论 -
ubuntu如何使用david blei 的hLDA code
因为blei的code是在mac写的,在ubuntu上,我们需要对Makefile 进行如下修改,1. CFLAGS_MAC中的-fast 删除2. MAC_LDFLAGS = -lgsl -lgslcblas 后面加上 -lm原创 2014-12-27 23:16:19 · 2102 阅读 · 1 评论 -
Probability Meature 概率测度
就是一个function u见wikiThe requirements for a function μ to be a probability measure on aprobability space are that:μ must return results in the unit interval [0, 1], returning 0 for t转载 2014-12-25 16:35:48 · 1404 阅读 · 0 评论 -
EM 我的理解
http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.htmlE 1. 假定 参数是theta, latent variable 是z 类似于seletor这种。我们先假定theta知道。求log MLE的的lower bound, 即q(z) = posterior distrbution of z. 即给定一个函原创 2015-01-30 23:07:39 · 538 阅读 · 0 评论 -
Gibbs sampling 详解
http://cos.name/2013/01/lda-math-mcmc-and-gibbs-sampling/转载 2014-12-21 21:39:09 · 1223 阅读 · 0 评论 -
本地使用git进行版本控制
1. git initcreate an empty repos. Now we don't have master branch yet.2. git add dirNameadd all the files for staged3. git commit -m "the first commit"now we have the master branch原创 2015-01-11 11:20:21 · 820 阅读 · 0 评论 -
对于observation or feature 的两种利用方式
对于text dataset, 每篇doc 一般都有对应的metadata(side information), 还有容易得到的一些feature e.g. pos, np chunking, wordnet1. word 本身2. metadata3. feature都算是我们的observation, 利用的方式有两种,第一种就是用generative model, 意淫这原创 2013-10-10 23:11:40 · 1158 阅读 · 0 评论 -
generative model 与 discriminative model 进一步理解
g model 就是 意淫p(x,y)的产生过程,这个过程可以任意复杂,只要能够inference出来。d model 就是 有些observation如果用 generative model来意淫出来的话,会导致model过于复杂,inference是个问题,所以我们可以alleviate这些observation,将其视作已经生成好了的,看做已知的东西,即graphical model 中原创 2013-10-10 23:30:43 · 1449 阅读 · 0 评论 -
Deduction & Induction
ref:http://www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Logic.htmlLogical arguments are usually classified as either 'deductive' or 'inductive'.Deduction: In the process of ded转载 2013-09-04 09:48:23 · 2113 阅读 · 0 评论 -
Dirichlet distribution的另一种理解,对应的如何解释dirichlet process
建议参考:http://en.wikipedia.org/wiki/Dirichlet_process 翻译:https://docs.google.com/document/d/1Luxn2OqVB-b1VxbB5kRPIGhuT4a_u-cpxCjNy89iBYU/edit来源:http://hi.baidu.com/vyfrcemnsnbgxyd/item/2f10ecc转载 2013-09-03 09:28:28 · 938 阅读 · 0 评论 -
Dirichlet Process & Dirichlet Distribution
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间Θ上的分布H和一个参数α,如果转载 2013-09-02 18:16:08 · 3226 阅读 · 1 评论 -
topic model 的总结
topic model 是一种应用十分广泛的产生式模型(generative model),在IR, NLP,ML都有广泛的应用,本文将对目前已有的topic model进行分类总结,然后选择几个代表性的topic model进行较为详细的介绍,从而理解topic model 的思想,以及怎么应用。topic model最经典的模型之一是LDA(latent dirichlet a转载 2013-09-02 18:26:06 · 1975 阅读 · 0 评论 -
dirichlet process 中CRP的马太效应
RT。 CRP中 第n+1个顾客选择第几个桌子的问题,是服从 先把某个table坐满,即人越多的桌子,越容易坐满,人越少的桌子越难坐满。这就是马太效应(Matthew Effect)----两极分化, 就如同创业投资一样,有钱的人越来越容易赚钱,没钱的越来越穷。原创 2013-09-02 17:58:23 · 1090 阅读 · 0 评论 -
topic model的分类及设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档转载 2013-09-02 18:26:01 · 1052 阅读 · 0 评论 -
(zz)理解LDA,latent dirichlet allocation- David Blei
若公式显示有问题请复制链接到新TAB重新打开听说国外大牛都认为LDA只是很简单的模型,吾辈一听这话,只能加油了~另外这个大牛写的LDA导读很不错:http://bbs.byr.cn/#!article/PR_AI/2530?p=1一、预备知识: 1. 概率密度和二项分布、多项分布,在这里 2. 狄利克雷分布,在这里,主要内容摘自《Pa转载 2013-08-31 20:27:02 · 1558 阅读 · 0 评论 -
EM 算法理解
对于model中含有hidden variables and parameters 来说,我们可以先 随机初始化parameter,e.g. alpha in ldaE step求 hidden variables 的后验概率, i.e. MAP, 求出new hidden variable value。类似于lda中的P(z, theta, phi| w), 但在lda中这个后验概率原创 2015-01-02 22:06:14 · 497 阅读 · 0 评论