
lucene
蝈蝈俊
蝈蝈俊.net
展开
-
Lucene 的存储结构概述
lucene的检索算法属于索引检索,即用空间来换取时间,对需要检索的文件、字符流进行全文索引,在检索的时候对索引进行快速的检索,得到检索位置,这个位置记录检索词出现的文件路径或者某个关键词。 lucene 在存储它的全文索引结构时,是有层次结构的,这涉及到5个层次:索引(Index);段(Segment);文档(Document);域(Field);词(Term),他们的关系如下图所示:(lu原创 2010-05-13 11:39:00 · 12407 阅读 · 1 评论 -
运行lucene 的Demo
这是最简单的方式的 lucene 的 Demo 步骤, 有稍稍的经验的都应该飘过。 step1:下载并安装并配置 JDK ,具体方法参看我之前的博客: Java环境的搭建 step2: 下载并配置 lucene, 下载请去: http://labs.renren.com/apache-mirror/lucene/java/ 以我下载的 lucene 3.0.1 为例,下载完后,我们原创 2010-05-12 12:53:00 · 4346 阅读 · 1 评论 -
lucene 文件存储相关的几个类
lucene 文件存储相关的几个类,以及他们的派生关系如下图: Directory 代表了 Lucene 的索引的存储的位置,这是一个抽象类。 DbDirectory 存储到 Berkeley DB 4.3 的实现,Berkeley DB是历史悠久的嵌入式数据库系统,主要应用在UNIX/LINUX操作系统上,其设计思想是简单、小巧、可靠、高性能。 JEDirecto原创 2010-05-14 10:49:00 · 2195 阅读 · 0 评论 -
mmseg4j 中文分词器的一些简介整理
在 lucene 中,我们是使用 IndexWriter 调用 Analyzer 将文章切成以词为单位的 Stream,然后生成索引的。lucene 内建的分词器很多,比如:按空白字符分词的WhitespaceAnalyzer,添加了stopword过滤的StopAnalyzer,以及最常用的是StandardAnalyzer。这些自带的分词器对中文支持多不好,我觉得比较好的中文分词器是 mmse原创 2010-05-14 17:03:00 · 7667 阅读 · 2 评论