
Lucene
文章平均质量分 72
腊八粥2018
这个作者很懒,什么都没留下…
展开
-
Lucene 基本原理(七)创建索引
全文检索的索引创建过程一般有以下几步:第一步:一些要索引的原文档(Document)。为了方便说明索引创建过程,这里特意用两个文件为例:文件一:Students should be allowed to go out with their friends, but not allowed to drink beer.文件二:My friend Jerry went to schoo...转载 2019-01-10 11:05:42 · 549 阅读 · 1 评论 -
5.Lucene 基本原理(六)字典实现原理 FST(Finite State Transducer)
在Lucene基本原理(四)和(五)中,介绍了Lucene索引的构成,Lucene 基本原理(三)索引的构成是基于Lucene2.9.0版本概述索引的组成。倒排索引的核心是“单词字典”和“倒排列表”。从Lucene4.0之后,构成索引的字典的底层数据结构转换为FST(Finite State Transducer)中文,有穷状态转换器。接下来将简单介绍Lucene字典的底层数据结构。1 lu...转载 2019-02-12 15:54:13 · 930 阅读 · 0 评论 -
Lucene 基本原理 导读
关于Lucene,已经有很多相关博客,有相当的一部分讲的很好且十分详细,自己从开始学习到现在也是受益匪浅。但是,关于Lucene原理部分的内容,大部分讲的过于浅甚至没有,只有一小部分讲到原理,讲的深入的则更少。于是,自己做了一个总结,以下内容,有自己原创的,有转载的,相信通过以下内容,对于Lucene可以有更加深入的了解。Lucene 基本原理1.Lucene 基本原理(一)初识...原创 2019-02-02 09:35:07 · 400 阅读 · 0 评论 -
Lucene 基本原理(四)索引的构成
Lucene的索引里面存了些什么,如何存放的,也即Lucene的索引文件格式,是读懂Lucene源代码的一把钥匙。当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了Apach...转载 2019-01-10 11:14:12 · 936 阅读 · 0 评论 -
Lucene 基本原理(八)搜索索引
如何对索引进行搜索?到这里似乎我们可以宣布“我们找到想要的文档了”。然而事情并没有结束,找到了仅仅是全文检索的一个方面。不是吗?如果仅仅只有一个或十个文档包含我们查询的字符串,我们的确找到了。然而如果结果有一千个,甚至成千上万个呢?那个又是您最想要的文件呢?打开Google吧,比如说您想在微软找份工作,于是您输入“Microsoft job”,您却发现总共有22600000个结果返回。...转载 2019-01-10 11:07:43 · 368 阅读 · 0 评论 -
Lucene 基本原理(五)正排索引与倒排索引
Lucene:基于传统全文检索引擎的倒排索引,并实现了分块索引。与倒排所引相对立的是正排索引,也成为正向所引。Lucene:简单的说,可以认为是围绕索引展开的,索引包含的内容比较广且复杂。接下来,将简单介绍。1 正排索引(forward index)由key查询实体的过程,是正排索引.在搜索引擎中每个文件都对应一个文件ID,文件内容被表示为一系列关键词的集合 Map< i...原创 2019-01-02 14:39:53 · 2552 阅读 · 1 评论 -
Lucene 基本原理(一)初识
1.什么是Lucene?(1)根据Lucene官网的定义,Lucene包含:Lucene Core旗舰子项目,提供基于Java的索引和搜索技术,以及拼写检查,高亮显示和优秀的分析/标记能力。Solr 基于Lucene核心构建的高性能搜索服务器,具有XML/HTTP和JSON/python/ruby API、能够进行高亮显示、分面搜索、缓存、备份和并具有Web管理界面。Py...原创 2019-01-02 11:12:06 · 572 阅读 · 0 评论 -
Lucene 基本原理(三)创建索引及搜索的Java代码实现
直观感受一下,如何使用Java代码,利用Lucene创建索引并实现全文搜索的功能。基础知识(1)分词器,有很多种,根据业务需要自己设定。常见的IK分词器、jieba分词器、PanGu分词器等等。可以参考Apache Lucene(全文检索引擎)—分词器;11大Java开源中文分词器的使用方法和分词效果对比做简单了解。(2)Lucene的基本知识Document:文档是建索引的基...原创 2019-01-10 14:44:20 · 668 阅读 · 0 评论 -
Lucene 基本原理(二)总体架构设计
1.Lucene架构设计Lucene架构设计针对开发者来说,Lucene最重要的两个部分:(1)Index Doucuments 索引能够针对文件系统、数据库、网络爬虫等方式的输入数据,建立索引;能够针对txt、world、Excel、pdf等多种格式的文件,建立索引;建立索引的数据,包含结构化和非结构化的数据,都是建立索引的基础;(2)Search Index 搜索...原创 2019-03-04 10:41:58 · 424 阅读 · 0 评论