
模拟与采样
文章平均质量分 83
xianlingmao
这个作者很懒,什么都没留下…
展开
-
Topic Model的分类和设计原则
topic model的介绍性文章已经很多,在此仅做粗略介绍,本文假设读者已经较为熟悉Topic Medel。Topic Model (LDA)认为一个离散数据集合(如文档集合,图片集合,为行文方便,本文统统以文档集合作为描述对象,其他的数据集合只需换掉对应的术语即可)是由隐含在数据集合背后的topic set 生成的,这个set中的每一个topic都是词的概率分布。对于文档中的每一篇文档,先原创 2011-12-13 17:12:14 · 25767 阅读 · 3 评论 -
狄利克雷过程(dirichlet process )的五种理解
狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical dirichlet process)。下面我们谈谈dirichlet process的五种角度来理解它。第一种:原始定义:假设存在在度量空间\Theta上的分布H和一个参数\alpha,如果对于度量空间原创 2012-03-11 22:09:27 · 86678 阅读 · 5 评论 -
看懂信息检索和网络数据挖掘领域论文的必备知识总结
信息检索和网络数据领域(WWW, SIGIR, CIKM, WSDM, ACL, EMNLP等)的论文中常用的模型和技术总结引子:对于这个领域的博士生来说,看懂论文是入行了解大家在做什么的研究基础,通常我们会去看一本书。看一本书固然是好,但是有一个很大的缺点:一本书本身自成体系,所以包含太多东西,很多内容看了,但是实际上却用不到。这虽然不能说是一种浪费,但是却没有把有限力气花在刀口上。原创 2012-06-15 17:02:41 · 24826 阅读 · 6 评论 -
深入理解模拟退火算法(Simulated Annealing)
本文将对模拟退火算法(Simulated Annealing)进行介绍,深入理解这个算法。模拟退火算法和上一篇文章随机模拟算法中的Metropolis算法有着紧密的联系,在这里将详细探讨这种关系。我们先从这个算法要解决的问题出发,逐步引出相应的算法。(pku, sewm,shinning)一. 问题人们经常遇到这样的问题:在某个定义域S内,求某个函数f(x)的最小值,形式化为Min原创 2012-07-29 12:20:50 · 78161 阅读 · 2 评论 -
随机模拟的基本思想和常用采样方法(sampling)
通常,我们会遇到很多问题无法用分析的方法来求得精确解,例如由于式子特别,真的解不出来;一般遇到这种情况,人们经常会采用一些方法去得到近似解(越逼近精确解越好,当然如果一个近似算法与精确解的接近程度能够通过一个式子来衡量或者有上下界,那么这种近似算法比较好,因为人们可以知道接近程度,换个说法,一般一个近似算法被提出后,人们通常都会去考察或寻求刻划近似程度的式子)。本文要谈的随机模拟就是一类近原创 2012-07-23 15:27:44 · 133306 阅读 · 24 评论