
lucene
zhengbo0
这个作者很懒,什么都没留下…
展开
-
实战 Lucene,第 1 部分: 初识 Lucene
Lucene 简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucen转载 2014-02-11 15:00:01 · 534 阅读 · 0 评论 -
深入 Lucene 索引机制
架构概览图一显示了 Lucene 的索引机制的架构。Lucene 使用各种解析器对各种不同类型的文档进行解析。比如对于 HTML 文档,HTML 解析器会做一些预处理的工作,比如过滤文档中的 HTML 标签等等。HTML 解析器的输出的是文本内容,接着 Lucene 的分词器(Analyzer)从文本内容中提取出索引项以及相关信息,比如索引项的出现频率。接着 Lucene 的分词器把这些信转载 2014-02-11 15:17:49 · 1374 阅读 · 0 评论 -
lucene4.6索引创建和搜索例子
1.索引过程创建IndexWriter,它的作用是用来写索引文件可以将IndexWriter看做是一个特定类型的数据库,用来存放各种表,可以将Document看做是一张张的表IndexWriter iw=new IndexWriter(Directory dire, IndexWriterConfig iwc);可见,该方法有两个参数,第一个参数为索引存放位置,参数类型为D转载 2014-02-12 09:47:46 · 735 阅读 · 0 评论 -
Lucene的多域查询、结果中查询、查询结果分页、高亮查询结果和结果评分
1.针对多个域的一次性查询1.1.三种方案 使用lucene构造搜索引擎的时候,如果要针对多个域进行一次性查询,一般来说有三种方法: 第一种实现方法是创建多值的全包含域的文本进行索引,这个方案最简单。但是这个防范有个缺点:你不能直接对每个域的加权进行控制。 第二种方法是使用MultiFieldQueryParser,它是QueryParser的子类,它会在转载 2014-02-13 18:25:17 · 794 阅读 · 0 评论 -
Paoding分词-扩展词典
在使用庖丁自定义词典的时候,按照网上查的资料,1.首先自定义一个XXX.dic的文件,以utf-8保存;2.将自定义词添加到dic\locale下的XXX.dic中;3.删除.compile文件夹庖丁有两种分词模式:most-words:最大词量分词方式,此模式对应的词典编译类为MostWordsModeDictionariesCompilermax-wor原创 2014-02-18 15:15:11 · 1467 阅读 · 1 评论