
stats
xyqzki
wahahahaahahahahah
展开
-
参数估计的方法,MLE,MAP,Bayesian estimator
Density estimation是learning中常见的一个task,即估计该分布的参数θ。在有限的样本下,如何判定哪个估计最优,概率论中有两种常用的principle:MLE(Maximum likelihood estimation),MAP(Maximum a posteriori estimation)。由于估计的是一个确定的参数值,MLE和MAP称为点估计。事实上,由于样本有限,这转载 2013-08-29 20:43:25 · 8550 阅读 · 0 评论 -
variational inference
theta: org parameter, theta_P: variational parameter1. goal: 估计p(z|x)2. 找p(x|theta)likelihood的lower bound,再max这个lower bound 就能找到 p(z|x)的近似分布q(z|theta_P)3. 找complete likelihood ln[p(x,z转载 2013-12-19 10:22:33 · 7145 阅读 · 0 评论 -
generative model 与 discriminative model 进一步理解
g model 就是 意淫p(x,y)的产生过程,这个过程可以任意复杂,只要能够inference出来。d model 就是 有些observation如果用 generative model来意淫出来的话,会导致model过于复杂,inference是个问题,所以我们可以alleviate这些observation,将其视作已经生成好了的,看做已知的东西,即graphical model 中原创 2013-10-10 23:30:43 · 1449 阅读 · 0 评论 -
KL(q||p)与KL(p||q) variational inferenece
KL(q||p) 重视local的 big p(z), 不重视global,q(z)的z subspace 都对应p(z)的big probability mass,即,“重点打击”. 但是q(z)的z subspace不能 cover 所有p(z) 大的region. 例如在GMM中KL(p||q) 重视global的,avg的,不重视local的,p(z) nonzero的地方,q(z)也原创 2013-10-05 22:58:10 · 1950 阅读 · 0 评论 -
Gaussina distribution中的马氏距离
马氏距离 Mahalanobis distanceThe drawback of the above approach was that we assumed that the sample points are distributed about the center of mass in a spherical manner. Were the distributi转载 2013-10-05 20:31:58 · 963 阅读 · 0 评论 -
什么时候用EM算法?topic model case
在topic model中有parameter 和 hyper parameter, 首先我们不要consider hyper parameter,只对parameter与observation 进行model,即log-likelihood 是 ln p(x|theta) = sigma_ln p(x_i|theta) = sigma_ln sigma_i {p(x_i|z_i)原创 2013-10-03 09:27:05 · 1240 阅读 · 0 评论 -
Deduction & Induction
ref:http://www.psych.utah.edu/gordon/Classes/Psy4905Docs/PsychHistory/Cards/Logic.htmlLogical arguments are usually classified as either 'deductive' or 'inductive'.Deduction: In the process of ded转载 2013-09-04 09:48:23 · 2113 阅读 · 0 评论 -
Dirichlet distribution的另一种理解,对应的如何解释dirichlet process
建议参考:http://en.wikipedia.org/wiki/Dirichlet_process 翻译:https://docs.google.com/document/d/1Luxn2OqVB-b1VxbB5kRPIGhuT4a_u-cpxCjNy89iBYU/edit来源:http://hi.baidu.com/vyfrcemnsnbgxyd/item/2f10ecc转载 2013-09-03 09:28:28 · 938 阅读 · 0 评论 -
Dirichlet Process & Dirichlet Distribution
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间Θ上的分布H和一个参数α,如果转载 2013-09-02 18:16:08 · 3226 阅读 · 1 评论 -
dirichlet process 中CRP的马太效应
RT。 CRP中 第n+1个顾客选择第几个桌子的问题,是服从 先把某个table坐满,即人越多的桌子,越容易坐满,人越少的桌子越难坐满。这就是马太效应(Matthew Effect)----两极分化, 就如同创业投资一样,有钱的人越来越容易赚钱,没钱的越来越穷。原创 2013-09-02 17:58:23 · 1090 阅读 · 0 评论 -
(zz)理解LDA,latent dirichlet allocation- David Blei
若公式显示有问题请复制链接到新TAB重新打开听说国外大牛都认为LDA只是很简单的模型,吾辈一听这话,只能加油了~另外这个大牛写的LDA导读很不错:http://bbs.byr.cn/#!article/PR_AI/2530?p=1一、预备知识: 1. 概率密度和二项分布、多项分布,在这里 2. 狄利克雷分布,在这里,主要内容摘自《Pa转载 2013-08-31 20:27:02 · 1558 阅读 · 0 评论 -
pLSA与LDA中的parameter estimation笔记
1. pLSA中 是用MLE or MAP来做parameter estimation的,即把p(z|w) 看做a unknown function of z, i.e. f(z), 求一个optimal z. 这个是point estimator2. 在LDA中,求p(z|w)是用bayesian inference。 即求p(z|w)的分布,将其看做一个random variable,不同原创 2013-08-31 23:24:46 · 1007 阅读 · 0 评论 -
sufficient statics 理解
==========sufficient statistic 充分统计量对于一个未知分布而言,充分统计量sufficient statistic,顾名思义,就是当知道这些量的时候,这个分布就可以确定了,所以这些量才有sufficient的意思,足够的意思。有了这些量,即便丢失掉样本的其他信息也对于估计未知的分布而言也是无关紧要了,所以那些量才能成为是sufficient的。维基上的解释最经转载 2013-12-19 10:05:42 · 1213 阅读 · 0 评论