
HDP算法
caoeryingzi
这个作者很懒,什么都没留下…
展开
-
更新超参数
更新超参数,因为lambda是对vocabulary的分布情况,因此不进行更新,而lambda是维数为V的vector。而参数alpha和gamma是会随着table和dish的个数变化而发生维数变化的,不仅仅维数变化,连其值也会发生变化。因此,在更新中,只需要更新超参数。而每个超参数都是vector,这样以来,在更新超参数时,需要更新的是vector,而不是一个value。应该是vector中的原创 2010-05-05 16:53:00 · 1598 阅读 · 0 评论 -
增加实验结果
<br />今天决定把实验过程中不同参数下的实验结果都给出,后悔当时做实验室没有保存完善,所以现在需要重新实验。不同参数下,实验结果有好有坏,但是给出来有个对比,也算是一种完善吧。原创 2011-02-21 20:36:00 · 763 阅读 · 0 评论 -
几个问题的思考
<br />关于论文和自己工作中几个问题的思考和暂时的答案<br /> <br />1.模型的适用性解释:<br />关于这个问题当时的出发点有两处:(不写了,写到论文中最后一章分析中了。)原创 2011-02-19 22:04:00 · 739 阅读 · 0 评论 -
HDP的另外一种构架
<br />知道dahua lin的这篇文章已有很久了,只是一直没看懂。作者在其博客里将论文大概介绍了一下,再看他的论文,甚至觉得佩服。<br /> <br />作者借用poisson processes将dirichlet process进行了construction。这和以往的polya urn 或者crp,或者stick-breaking不同。其实,我当时看这几种构造时差点头大崩溃大。现在dahua lin的文章,一看又是那么多的公式,胆怯万分。<br /> <br />而且作者通过poisson p原创 2011-02-17 17:00:00 · 1403 阅读 · 1 评论 -
模型实现备忘
<br />在编程实现过程中,其实p(y|x) = p(x,y)/p(x)<br />由于分母和分子的计算是一样的,而不同的多了个数据点。在计算过程中,我采用的是先计算分子,再计算分母的方式,而后由于是取的是对数的形式,因此两者相减后得到要求的条件概率值。<br /> <br />在计算的过程中,就直接采用YWT的那篇小的note就可以了,分别计算分母和分子。数据个数的奇偶性,就按照其中所说即可。<br /> <br /> <br />原创 2011-02-16 15:24:00 · 703 阅读 · 0 评论 -
上午的工作进度
<br />今天上午,把自动化学报的文章要求参考文献格式的信息,进行了搜索和咨询。目前为止,还有两个没有解决的,真是发愁啊。每次整这个参考文献信息,都很浪费时间。千万别投稿到国内的期刊,如果你够牛,一定往国外投。国内的期刊,参考文献要写出来出版社,页码,开会国家,地点,时间,等等。而且还要给编辑部说,你的信息在哪里查找的,哪个页面的第几行等等。我都要崩溃了。<br /> <br />今天又是一上午的时间啊。本来想把程序今天上午搞定,下午补充论文第一章呢。哎,杯具啊,中国的期刊。杯具啊,我的科研实力。原创 2011-02-18 11:22:00 · 806 阅读 · 0 评论 -
ICML的出版社问题
<br />折腾一上午,也没在ICML2010的官方web上看到出版社信息。豆瓣求助,得到网友相助,才看到。<br />http://www.informatik.uni-trier.de/~ley/db/conf/icml/ <br />这里有每年的ICML会议的相关详细信息。我估计参考文献里还有其它的几个需要修改,不过暂时编辑部没说有问题,可能是他们已经修改完成了。<br />不管怎么样,等最终稿件回来时,需要核对一下这些信息。尤其是来自ICML的很多篇文献,要核对,还有去掉的几篇参考文献,需要核对。<原创 2011-02-18 13:40:00 · 6153 阅读 · 1 评论 -
先验知识的影响
<br />初步的实验发现,这个算法受到先验知识的影响很大。同时很难解释的是,离线和在线的影响还不一样。在线情况下会小些。<br /> <br />而本来想利用HDP-HMM模型的,但是当我把模型推导,伪代码,反复想该怎么写时,发现模型并不是我开始预想的那样,我需要的思路该模型满足不了。是我对模型的认识错误导致的这个结果,让我很伤心。晚上睡觉前想到的,老公都睡着了,我很郁闷地告诉他,模型不适合我的问题,郁闷。<br />第二天继续想,想了一个可能合适的,结果晚上我想了想,睡着前跟老公说,老公我今天想的模型还原创 2011-02-15 15:14:00 · 1703 阅读 · 1 评论 -
程序调试
<br />昨天晚上发现,程序在多项式部分有问题,改过这部分后,就开始出问题了。今天查了一上午才知道,指针溢出的地方,是我的data_ss中,多项式的序号从1开始,而数组从0开始的,这样的话,就可能会溢出了。这个问题以前没出现,因为以前的多项式部分设置有问题,使得多项式只出现某一种情况,而这种情况恰好又比较小,不会溢出,所以啦。<br /> <br /> <br />现在看来,自己的程序需要好好审查审查才是。原创 2011-02-24 11:32:00 · 720 阅读 · 0 评论 -
HDP-HMM
<br />HDP-HMM实现的过程<br /> <br />一直想尝试实现这个模型应用到我的数据中,HMM貌似看懂了,可真的自己实现时还是发现了很多问题。加油吧,一定要在走之前实验完成了,过年后交毕业论文,准备答辩。如果老板让早点答辩,就早点答辩去开始实习去。<br /> <br />下一个阶段头大的事情就是毕业论文了,加油。<br /> <br />关于HDP-HMM,陆续会写些进展的文章,希望能够尽快。原创 2011-01-16 20:30:00 · 4072 阅读 · 1 评论 -
概率图模型的讨论
<br />因为个人原因,最近一直没有更新这一块了。<br /> <br />HDP模型,我用在自己的数据中,效果并不如当初想的好,这也是论文整到现在的一个原因。当初自己想的模型,其实后来想想比现在有的模型,从构成上是一样的,而人家的模型比我的描述的更有统一性。所以,后来也就没有再去实现了。只是简单地用了K-MEANS.这是非常郁闷的事情,从学习HDP得到了很多人的帮助,其中一个是计算所的师弟,可后来没能在他需要的时候给他讲解一下他的疑惑,到现在都觉得非常对不住,因为那几天改论文改的每天只睡几个小时,有时候原创 2010-12-27 21:13:00 · 1934 阅读 · 0 评论 -
八卦点HDP模型吧
<br />既然我坚持了那么久,看懂了,把我博士工作耽误的其实也不少,也不算耽误,主要是基础差,这个算法又麻烦,所以一直看到现在也没出成果。我想如果当时有人能够指导我,告诉我这个很难,需要专业的理论背景等知识,我可能不会继续下去。而如果有人一起学习讨论,可能现在也会好多了。但是,这些都是假设,不是吗?<br /> <br />但是,既然做了,实现了,就还是要继续关注下去。<br /> <br /> <br />首先,HDP模型,不是万能的,但是至少目前在我看来是非常灵活的一个模型。从HDP延伸出来的模型,最原创 2010-10-26 16:27:00 · 7312 阅读 · 4 评论 -
hdp code
<br />hdp c++ code.<br /> <br /> <br />实现这部分代码已经很久了,一直没有进行总结过,更多的是思考如何进行下一步的工作和创新。说实话到现在也没什么创新,所多的只是对HDP的更多认识和对自己知识结构的认识。<br /> <br />关于HDP,matlab算法多的是,其实在我看了作者的matlab代码后,我觉得作者的code真是很好很好。但是,matlab中,其实有些也很麻烦的,再者我不喜欢用这个工具,因为我一直对矩阵操作有点胆怯,无把握。所以,我一般只是用来处理数据。原创 2010-07-23 10:00:00 · 2630 阅读 · 5 评论 -
gibbs取样
原来一直在看的一个取样算法,我就觉得很奇怪,为何不同的人写的不一样呢。现在明白了,这三种形式不同的地方和为何不同。在文献/cite{Neal2000}中,作者对狄里克雷混合模型的gibbs取样算法进行了综述性介绍。其中前三种算法是处理共轭分布的取样算法。但是,作者并没有详细给出算法的应用举例,在/cite{Ananth2004,Ananth2008,Sudderth2006}中分别对/cite{N原创 2010-05-05 17:03:00 · 3408 阅读 · 0 评论 -
堆和栈
深刻剖析经典面试题之一:堆和栈的区别转自一个博客堆(heap)和栈(stack)的区别一、预备知识—程序的内存分配一个由c/C++编译的程序占用的内存分为以下几个部分1、栈区(stack)—由编译器自动分配释放,存放函数的参数值,局部变量的值等。其操作方式类似于数据结构中的栈。2、堆区(heap)—一般由程序员分配释放,若程序员不释放,程序结束时可能由OS回收。注意它与数据结构中的堆是原创 2010-05-05 17:05:00 · 580 阅读 · 0 评论 -
dirichlet分布
in the blog of Jurgen Van Gael, he gave some detail review of dirichlet distribution.http://undirectedgrad.blogspot.com/search/label/iHMMAs in China, we can not visit the blogspot easily, and it is原创 2010-05-05 17:04:00 · 2399 阅读 · 0 评论 -
随机分布生成
用C在WINDOWS下编程有一点很不好,就是随机样本的生成很不方便。前一段时间实现HDP时,因为用系统的随机生成的随机数,初始化模型时,效果很不好。因为初始的模型随机性太差,最后用了LDA的经典程序中生成随机数的哪部分程序生成的随机数来初始化模型,效果很不错。但是,像均匀分布、gamma分布,等这样的分布,就很难生成。Y.W.T中的HDP中,gamma分布来生成hyperparameter原创 2010-05-05 16:53:00 · 1727 阅读 · 0 评论 -
lda的concentration parameter
之前,在做hdp时,测试过concentration parameter的影响,感觉对采样收敛速度影响比较大。但是,那个时候没有对内部的聚类结果进行分析,只是整体看了一下结果。这几天,测试lda,调整这个concentration parameter时,发现这个参数不仅影响到收敛速度,还影响聚类效果。当将concentration parameter设置到很小时,聚类会收敛到少数几个t原创 2012-11-21 14:13:42 · 1794 阅读 · 0 评论