
Lucene
OnePiece_Sky
从事软件开发
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Lucene搜索方式大合集
Lucene搜索方式大合集 1、IndexCreationTest类:Lucene搜索测试类 package junit; import java.io.File; import java.io.IOException; import java.text.ParseException; import java.util.ArrayList; import java.util.Li转载 2014-11-08 16:57:52 · 505 阅读 · 0 评论 -
Lucene 的检索方式
TermQuery 这个检索通常查找文档中唯一数据的字段(在更新索引时特别有用),一般这个字段使用Field.Index.NOT_ANALYZED方式保存索引(但并不意味着所有Field.Index.NOT_ANALYZED方式保存索引的字段有唯一值). 1 Term t = new Term("contents", "java"); 2转载 2014-12-13 14:47:37 · 498 阅读 · 0 评论 -
Lucene学习总结之三:Lucene的索引文件格式(2)
四、具体格式 上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。 4.1. 正向信息 Index –> Segments (segments.gen, segments_N) –> Field(fnm转载 2015-01-08 16:16:26 · 491 阅读 · 0 评论 -
Lucene学习总结之三:Lucene的索引文件格式(1)
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。 当我们真正进入到Lucene源代码之中的时候,我们会发现: Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。 本文详细解读了转载 2015-01-08 15:53:22 · 466 阅读 · 0 评论 -
lucene索引文件格式介绍
每一个索引段文件包含如下的信息: 域名字、对应域包含的值,一组组域名和对应的域值组成了文档,在搜索返回的结果中就是这些域和域对应的值,每个文档会用一个ID与此对应。 term字典,包含了有多少存有term的文档个数,指向term的频率与位置信息。 Term频率数据,对字典中的每一个term,包含term的文档数,以及一个term在一个文档中出现的次数,如果omitTf=false转载 2014-12-17 11:30:27 · 575 阅读 · 0 评论 -
lucene搜索方式(query类型)
Lucene有多种搜索方式,可以根据需要选择不同的方式。 1、词条搜索(单个关键字查找) 主要对象是TermQuery 调用方式如下: Term term=new Term(字段名,搜索关键字); Query query=new TermQuery(term); Hits hits=searcher.search(query); 2转载 2014-11-06 16:38:58 · 512 阅读 · 0 评论 -
Lucene 3.6 中文分词、分页查询、高亮显示等
1、准备工作 下载lucene 3.6.1 : http://lucene.apache.org/ 下载中文分词IK Analyzer: http://code.google.com/p/ik-analyzer/downloads/list (注意下载的是IK Analyzer 2012_u5_source.zip,其他版本有bug) 下载solr 3.6.1: htt转载 2014-11-12 14:27:33 · 809 阅读 · 0 评论 -
lucene索引删除,恢复,更新
package org.se.lucene; //主类 import java.io.File; import java.io.IOException; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.Document;转载 2014-11-09 11:38:40 · 1154 阅读 · 0 评论 -
Lucene索引删除详解
如下索引,NameCount读出来是2,说明新的段位_2.xxx,_2.yyy SegCount 段(Segment)的个数。 如上图,此值为2。 SegCount元数据信息: SegName 段名,所有属于同一个段的文件都有以段名作为文件名。 如上图:第一个段的段名为“_0”,第二转载 2014-11-09 11:32:54 · 3496 阅读 · 0 评论 -
Lucene 的认识学习
通过这几天的看书和学习,对 Lucene 有了更进一步的认识,所以总结一下这些天的学习成果把 Lucene 的学习心得也学出来。 1 Lucene 的认识 提到 Lucene 很多人都知道这个开源的搜索工具,其魅力也是很大的。它让我们对搜索引擎的认识不在那么神秘,也不会在觉得百度和 google 的技术多么的高深没测,其实其原理都是一样的,只是他们要做的更好,走的更远罢了。转载 2014-11-09 15:09:59 · 454 阅读 · 0 评论 -
Maven如何手动添加依赖的jar文件到本地Maven仓库
pache Maven,是一个软件(特别是Java软件)项目管理及自动构建工具,由Apache软件基金会所提供。基于项目对象模型(缩写:POM)概念,Maven利用一个中央信息片断能管理一个项目的构建、报告和文档等步骤。曾是Jakarta项目的子项目,现为独立Apache项目。 大家肯定遇到过想在pom文件中加入自己开发的依赖包,这些包肯定是不是在Maven仓库(http://repo1.m转载 2015-03-12 09:51:18 · 753 阅读 · 0 评论