
Lucene
sustbeckham
java
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
LUCENE3.0 自学吧 1
<br /><br /> <br />一个简单的lucene Demo,主要使用了org.apache.lucene.index包里面的IndexWriter类。IndexWriter有很多构造方法,一般的索引都使用了它的如下的构造方法:<br /> public IndexWriter(Directory d, Analyzer a, boolean create, MaxFieldLength mfl) throws CorruptIndexException, LockObtain原创 2010-08-13 10:05:00 · 502 阅读 · 0 评论 -
LUCENE3.0 自学吧 2-IndexWriter
<br /><br />IndexWriter是一个非常重要的工具。建立索引必须从它开始。而且,从它的构造函数开始。<br /> <br />Document和Field是Lucene中两个最重要的概念。在建立索引的时候,也就是实例化一个索引器IndexWriter的之前,必须通过已经建立好的Document逻辑文件,将Document的对象添加到IndexWriter实例中,才能算是建立索引。<br /> <br />Document汇集数据源,这个数据源是通过Field来构造的。构造好Field之后,将原创 2010-08-13 10:08:00 · 1160 阅读 · 0 评论 -
捣鼓出来第一个LUCENE程序...我太笨了
<br />package com.fpi.lucene.studying.myfirstlucene; import java.io.File; import java.io.FileReader; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document; import org.apach原创 2010-08-12 15:42:00 · 789 阅读 · 1 评论 -
LUCENE3.0 自学吧 3 由lucene demo引出的思考
org.apache.lucene.demo.IndexFiles 类中,使用递归的方式去索引文件 。在构造了一个IndexWriter索引器之后 ,就可以向索引器中添加Doucument 了,执行真正地建立索引的过程。遍历每个目录,因为每个目录中可能还存在目录,进行深度遍历,采用递归技术找到处于叶节点处的文件(普通的具有扩展名的文件,比如my.txt文件),然后调用如下代码中:static void indexDocs(IndexWriter writer, File file) thr转载 2010-08-13 10:21:00 · 999 阅读 · 1 评论 -
LUCENE3.0 自学吧 4 TermDocs
<br />利用TermDocs也是可以得到一些有用的结果。。。代码如下<br />package com.fpi.lucene.studying.myfirstlucene; import java.io.File; import java.io.IOException; import org.apache.lucene.LucenePackage; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.anal原创 2010-08-13 11:31:00 · 1518 阅读 · 0 评论 -
LUCENE3.0 自学吧 5 TokenStream
<br />研究Lucene分析器的实现。<br />Analyzer抽象类<br />所有的分析器的实现,都是继承自抽象类Analyzer ,它的源代码如下所示:<br />package org.apache.lucene.analysis; import java.io.Reader; public abstract class Analyzer { // 通过Field的名称,和一个Reader对象,创建一个分词流,该方法是抽象方法 public abstract TokenStrea转载 2010-08-13 14:14:00 · 3144 阅读 · 1 评论 -
LUCENE3.0 自学吧 6 中文分词
<br /><br />ChineseTokenizer中文分词器,不过坏处是只能把词一个一个字的分开。<br />package org.apache.lucene.analysis.cn; import java.io.IOException; import java.io.Reader; import org.apache.lucene.analysis.Tokenizer; import org.apache.lucene.analysis.tokenattributes.Off原创 2010-08-13 15:13:00 · 634 阅读 · 0 评论 -
LUCENE3.0 自学吧 8 filter
<br /><br /> <br /> <br /><br />TokenFilter,个人觉得很好理解,就是把不需要的东西过滤掉。<br />例如分词后的结果如下:<br />【what are you doing man】<br />也许我们认为are.you.what这三个这个词语太普遍了,不具有查询的意义。则可以在查询之前将其剔除掉,实际上索引存的信息就是有关于【doing man】的信息。这个事情就交给Filter来做了。<br /> <br />下面是剔除长度不过关的LengthFilter<原创 2010-08-13 16:22:00 · 1131 阅读 · 0 评论