
信息检索
文章平均质量分 83
eaglex
认真做好每一件小事
展开
-
隐马尔科夫模型(Hidden Markov Models) 系列之三
介绍(introduction)生成模式(Generating Patterns)隐含模式(Hidden Patterns)隐马尔科夫模型(Hidden Markov Models)前向算法(Forward Algorithm)维特比算法(Viterbi Algorithm)前向后向算法(Forward-Backward Algorithm)总结隐马尔科夫模型(Hidden Markov Models)定义隐马尔科夫模型可以用一个三元组(π,A,B)来定义:π 表示初始状态概率的向量A =(aij)(隐藏翻译 2011-05-13 20:54:00 · 7967 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Models) 系列之一
介绍(introduction)生成模式(Generating Patterns)隐含模式(Hidden Patterns)隐马尔科夫模型(Hidden Markov Models)前向算法(Forward Algorithm)维特比算法(Viterbi Algorithm)前向后向算法(Forward-Backward Algorithm)总结 介绍(introduction)通常我们总是对寻找某一段时间上的模式感兴趣,这些模式可能出现在很多领域:一个人在使用电脑的时候使用的命令的序列模式;一句话中的单词翻译 2011-04-30 20:55:00 · 14799 阅读 · 3 评论 -
阅读笔记:Building a Distributed Full-Text Index for the Web
这篇文章主要讲的是对海量互联网数据建立分布式索引的一些注意的问题和解决方案,涉及到服务器的物理架构、倒排索引的具体结构以及各个索引服务器之间的通信之间的问题。文章主要由三个创新的地方: 对建立索引的过程分段,采用流水线技术最大化索引的效率对不同的倒排模型进行比较,证明了复合模型(mixed-list)的最优性全局数据(诸如idf)收集的一些策略当然,之前还有大段的文字从互联网数据的规模、增长速度和变化频率论证了建立索引的时间对整个搜索过程有着重要的影响。另外,还交代了作者进行试验的一些服务器物理架构特点和以原创 2011-04-25 22:26:00 · 2375 阅读 · 0 评论 -
win7下cygwin + Eclipse + Lucene3.1.0 安装编译
最近为了研究Lucene的倒排索引结构,想把lucene的源码在Eclipse里编译安装,cygwin和Eclipse的安装见之前的blog。Lucene3.1 安装:到http://lucene.apache.com下载到源码之后,在Eclipse中新建一个项目,直接将源码包中src/java目录下的文件夹都拷到项目的src下即可,同时将lib文件夹下的三个jar包添加项目的buildpath中,到这里就完成了,很简单。由于Lucene3.1使用的是JUnit测试框架,所以为了进行测试,我们还需要从src原创 2011-04-25 13:24:00 · 3331 阅读 · 0 评论 -
你好 百度——你好 NLP
昨天在四号线上手机上网时发现百度的状态已经变成了“三面已通过”,在感叹百度做决定的效率之高之余,心里的一块大石头也落地了,毕竟这是第一个实习offer(虽然offer还没到手-。-),而我打主意去的公司也就剩下百度的和有道了,关于公司的选择一会儿在三面的时候我会提到,所以还是有一定压力的。好在从笔试到三面一路下来,除了时间上跨度比较远——大概横跨了快一个月,其他方面还是比较顺利的,甚至可以说原创 2011-06-03 21:19:00 · 5320 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Models) 系列之五
介绍(introduction)生成模式(Generating Patterns)隐含模式(Hidden Patterns)隐马尔科夫模型(Hidden Markov Models)前向算法(Forward Algorithm)维特比算法(Viterbi Algorithm)前向后向算法(Forward-Backward Algorithm)总结维特比算法(Viterbi Algorithm)找到可能性最大的隐藏序列通常我们都有一个特定的HMM,然后根据一个可观察序列去找到最可能生成这个可观察序列的隐藏序翻译 2011-06-01 09:24:00 · 8485 阅读 · 0 评论 -
win7下cygwin + Eclipse + Nutch1.2 + Tomcat6 安装配置
之前在Ubuntu下安装了次,花了蛮久,但是觉得看代码什么的不方便,而且大部分工作还是在Win7,加之今天做PPT要讲Nutch的效果,所以花了一两个小时在Win7下安装了,虽然有了第一次经验,还是出现了一些问题。JDK6.0 + Eclipse + Tomcat这个基础组合的安装就不说了,基本不需要什么配置,网上也有很多的介绍。a)Cygwin的配置由于nutch是默认运行在linux下的,所以我们需要安装cygwin,在此下载。一般选择在线安装,这里要注意,选择美国的服务器,即.org或类似的一级域名结原创 2011-04-11 00:37:00 · 6451 阅读 · 4 评论 -
Java的Hashtable实现
最近做信息检索的VSM实验,字典生成这块用的是java自带的Hashtable数据结构,觉得效率还不错。后来有同学提到用词典树来保存字符串,可以用公共前缀来节约存储空间,最大限度的减少无谓的比较,查询效率要高于哈希表。回头有时间研究下词典书的实现和分析,这里先分析一下java的hashtable实现以及常见的字符串hash算法。为了使用Eclipse去查看java本身的一些基础实现,我们需要先将java的源码加到Eclipse的jre路径中:1.点 “window”-> "Preferences" -> "原创 2011-04-07 00:14:00 · 6818 阅读 · 0 评论 -
阅读笔记:Detecting Near-Duplicates for Web Crawling
Detecting Near-Duplicates for Web Crawling 阅读笔记Detecting Near-Duplicates for Web Crawling 是Google公司的几个工程师07年参加Track数据挖掘部分的一篇文章,主要解决的问题是相似内容的网页的识别。原创 2011-04-02 11:45:00 · 5671 阅读 · 0 评论 -
隐马尔科夫模型(Hidden Markov Models) 系列之四
介绍(introduction)生成模式(Generating Patterns)隐含模式(Hidden Patterns)隐马尔科夫模型(Hidden Markov Models)前向算法(Forward Algorithm)维特比算法(Viterbi Algorithm)前向后向算法(Forward-Backward Algorithm)总结前向算法(Forward Algorithm)一、如果计算一个可观察序列的概率? 1.穷举搜索 加入给定一个HMM,也就是说(,A,B)这个三元组已知,我们想计翻译 2011-05-18 19:17:00 · 6734 阅读 · 4 评论 -
隐马尔科夫模型(Hidden Markov Models) 系列之二
介绍(introduction)生成模式(Generating Patterns)隐含模式(Hidden Patterns)隐马尔科夫模型(Hidden Markov Models)前向算法(Forward Algorithm)维特比算法(Viterbi Algorithm)前向后向算法(Forward-Backward Algorithm)总结隐含模式(Hidden Patterns)当马尔科夫过程不够强大的时候,我们又该怎么办呢?在某些情况下马尔科夫过程不足以描述我们希望发现的模式。回到之前那个天气的翻译 2011-05-02 22:39:00 · 8279 阅读 · 3 评论