
搜索引擎
文章平均质量分 60
W-大泡泡
这个作者很懒,什么都没留下…
展开
-
Lucene系列 - 索引(六) - 创建本地搜索的索引
整理记录了在Lucene 4版本中的遍历读取本地文件夹数据,并创建索引的过程。package com.gwu.lucene.tools;import java.io.File;import java.io.FileReader;import java.io.IOException;import org.apache.log4j.Logger;import org.apache.lucene.a原创 2017-04-06 16:54:04 · 1762 阅读 · 0 评论 -
Lucene系列 - 索引(五) - Lucene索引高级特性:索引优化与同步锁
5.5 Lucene索引高级特性: 5.5.1 选择索引域类型: 5.5.2 索引参数优化: 5.5.3 使用磁盘索引: 5.5.4 使用内存索引: 5.5.5 同步与锁机制:5.5.1 选择索引域类型:1、尽量减少不必要的存储: Store.NO不存储/YES存储/COMPRESS压缩存储原始内容 eg:Field fieldI原创 2017-04-06 20:22:46 · 1094 阅读 · 0 评论 -
Lucene系列 - 索引(四) - Lucene索引操作
5.4 Lucene索引操作: 5.4.1 添加文本文件索引 5.4.2 创建Lucene增量索引 5.4.3 使用索引项删除文档 5.4.4 使用编号删除文档 5.4.5 压缩文档编号 5.4.6 索引文档更新5.4.1 添加文本文件索引:使用IndexWriter来进行。 大致构建步骤: 定义索引文件存储路径 -> 打开待索原创 2017-04-06 20:19:19 · 603 阅读 · 0 评论 -
Lucene系列 - 索引(三) - Lucene索引实例
.3 Lucene索引实例: 5.2.1 索引创建代码解析 5.2.2 索引创建器(IndexWriter) 5.2.3 索引管理器(IndexReader) 5.2.4 索引修改器(IndexModifier) 5.2.5 索引分析器(Analyzer)5.2.1 索引创建代码解析索引系统可以采用IndexWriter来创建一个具体的索引,涉及四个原创 2017-04-06 20:17:49 · 610 阅读 · 0 评论 -
Lucene系列 - 索引(二) - Lucene索引器的索引结构(多文件/复合索引结构)
5.2 Lucene索引器: 5.2.1 Lucene索引介绍 5.2.2 Lucene索引结构 5.2.3 多文件索引结构 5.2.4 复合索引结构5.2.1 Lucene索引介绍: 文档索引 是 Lucene系统的核心功能。 有专门的API用来实现索引的建立和管理功能。可处理多种格式的文档,如磁盘文件、电子邮件地址、网页及数据库记录等。 Lucene原创 2017-04-06 20:14:47 · 3917 阅读 · 0 评论 -
Lucene系列 - 索引(一) - 文档索引原理
5.1 文档索引原理: 5.1.1 索引概述: 5.1.2 索引基本结构 5.1.3 倒排索引原理 5.1.4 索引分类 5.1.5 高性能索引5.1.1 索引概述: 索引是一种数组存储和组织结构。主要用于从大量文件中快速的查找到某个指定的信息。 完成信息检索的建立、维护和管理功能软件叫做索引器(文本信息处理系统),通常采用倒排文件索引构造索引系原创 2017-04-06 20:09:33 · 738 阅读 · 0 评论 -
Lucene中的近实时搜索SearcherManager
近实时搜索(near-real-time)可以搜索IndexWriter还未commit的内容。Index索引的刷新过程:只有IndexWriter上的commit操作才会导致Ram Directory内存上的数据完全同步到文件。 IndexWriter提供了实时获得reader的API,这个调用将会导致flush操作,生成新的segment,但不会commit (fsync),从而减少了IO。新原创 2017-04-01 18:11:17 · 1920 阅读 · 0 评论 -
Lucene系列 - 多线程下建立索引
package com.gangwu.lucene.demo;import java.io.File;import java.io.IOException;import org.apache.lucene.analysis.standard.StandardAnalyzer;import org.apache.lucene.document.Document;import org.apache原创 2017-04-07 17:26:18 · 1012 阅读 · 0 评论 -
Lucene系列 - 查询处理(二) - Lucene 信息查询概述及实例
6.2 Lucene查询概述: 6.2.1 查询操作基础 6.2.2 查询入门实例 6.2.3 查询工具IndexSearcher类 6.2.4 查询封装Query类 6.2.5 查询分析器QueryParser类 6.2.6 查询结果集Hits类6.2.1 查询操作基础:一个有效的搜索查询器需要具备: 检索查询词分析功能、索引文件访原创 2017-04-07 15:04:36 · 362 阅读 · 0 评论 -
Lucene系列 - 查询处理(一) - Lucene 信息查询原理
6.1 信息查询原理: 6.1.1 信息查询概述 6.1.2 查询基本流程 6.1.3 查询结果显示 6.1.4 高性能查询搜索引擎需要处理大数据量的文档,所有文档都经过索引过程完成了预处理。 预处理后的文档库使用倒排索引结构,搜索引擎的信息查询采用了索引查询的方法。6.1.1 信息查询概述:在全文检索领域,信息查询的基础方式: - 1、顺序查询原创 2017-04-07 15:00:26 · 467 阅读 · 0 评论 -
Lucene系列 - 索引(八) - 对索引进行优化与合并
Lucene索引的一个重要特征是支持增量索引。 可以保持原有的索引内容基础上,创建一系列新的子索引。子索引创建完成后,可以自动添加到索引段中,索引段膨胀到一定程度后,又可以自动添加到更大的索引段中。最后可以通过合并和优化生成一个索引文件。可以说lucene的索引建立过程就是一系列的索引合并过程。 首先利用自动合并功能,合并最小的单元;然后利用addIndexes命令可以把指定的索引合并起来。原创 2017-04-06 19:55:37 · 2545 阅读 · 0 评论 -
Lucene系列 - 索引(七) - 对数据库记录建立索引
数据库本就具有检索功能,使用标准的Sql语句很容易从一个表中获取指定的内容。 另一方面,越来越多的应用系统要求文本的模糊查找,各大数据库厂商提供了各种全文检索的索引功能,来支持全文检索,但是效果一般,尤其是在大数据量的情况下,对服务器和系统的设置都要求专业人士来维护。 另一方面企业级检索、本地检索的发展,要求把不同的数据源通过同一的方式检索出来,实现异构信息的整合,把各种非结构化数据、半结构化数原创 2017-04-06 19:08:38 · 3386 阅读 · 0 评论 -
Luecne基本原理:在Maven项目中简单环境搭建测试
Lucene 是一个高效的基于java的全文索引库。全文检索的索引的创建过程一般有以下几步:如何创建索引:第一步:准备需要索引的原始文档数据集(Document)文件格式有多种。本文以文本用一般的txt、word和excel文档作为示例数据集。第二步:将原文档传给分词组件(Tokenizer)将文档分成一个个单独的词去除标点符号去除停用词(stop word)第三步:将得到的词元(Token原创 2017-04-01 16:18:51 · 1063 阅读 · 0 评论