
Lucene
callan
这个作者很懒,什么都没留下…
展开
-
Lucene倒排索引原理
Lucene是一个高性能的java全文检索工具包,它使用的是倒排文件索引结构。该结构及相应的生成算法如下: 0)设有两篇文章1和2 文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too. 文章2的内容为:He once lived in Shanghai. 1)由于lucene是基于关键词索引和查询的,首先我们要取得这两篇文章...2007-09-04 20:17:18 · 71 阅读 · 0 评论 -
Nutch的安装与运行
Nutch是一个基于Lucene的搜索引擎应用. 一.准备工作 1.下载最新版的nutch-0.9(下载地址:http://lucene.apache.org/nutch/)放到d盘的d: nutch目录下 2.添加环境变量NUTCH_JAVA_HOME=jdk的安装路径 3.nutch需要在unix下跑,如果要装在windows上,需要安装cygwin(下载地址: http://ww...2007-12-19 16:38:51 · 173 阅读 · 0 评论 -
lucene的多种搜索
lucene的搜索相当强大,它提供了很多辅助查询类,各自完成一种特殊的查询,也可以相互组合使用,来完成一些复杂的操作. public class Test{ Analyzer analyzer = new StandardAnalyzer(); RAMDirectory directory = new RAMDirectory(); /** * 创建索引 * *...2008-01-07 23:35:42 · 94 阅读 · 0 评论 -
lucene的多种搜索2-SpanQuery
SpanQuery按照词在文章中的距离或者查询几个相邻词的查询 SpanQuery包括以下几种:SpanTermQuery:词距查询的基础,结果和TermQuery相似,只不过是增加了查询结果中单词的距离信息。SpanFirstQuery:在指定距离可以找到第一个单词的查询。SpanNearQuery:查询的几个语句之间保持者一定的距离。SpanOrQuery:同时查询几个词句查询。SpanNot...2008-01-09 11:05:14 · 150 阅读 · 0 评论 -
Lucene1.4与Lucene2.0的Field
Field的改进 Lucene1.4主要提供下列四种不同类型的Field: Keyword,UnStored,UnIndexed,Text 在Lucene2.0中是通过三个内部类Field.Index,Field.Store,Field.termVector(项向量)的组合来区分Field的具体类型.具体如下: Field.Store.COMPRESS:压缩保存,用于长文本或二进制数据...2008-01-14 00:14:45 · 79 阅读 · 0 评论 -
Lucene使用项向量进行模糊查询
TermVector是Lucene 1.4新增的 它提供一种向量机制来进行模糊查询,TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息. Field.TermVector.NO:不保存term vectorsField.TermVector.YES:保存term vectorsFi...2008-01-14 11:48:15 · 206 阅读 · 0 评论 -
Lucene使用项向量提高高亮显示性能
Lucene增加高亮显示后结果更高明显了,但是返回结果的速度比较慢.原因是Lucene做每一篇文档的相关关键词的高亮显示时,在运行时执行了很多遍的分词操作,降低了性能.TermVector保存Token.getPositionIncrement() 和Token.startOffset() 以及Token.endOffset() 信息。利用Lucene中新增加的Token信息的保存结果以后,就不需...2008-01-14 12:10:07 · 178 阅读 · 0 评论