
数据检索
604297268
从事大数据相关工作多年,在数据平台建设方面积累多年经验,如离线,实时计算,分布式数据存储,数据检索等,曾带领部门从无到有搭建起整个大数据技术体系。这些年业务涉及到互联网金融,物联网接入,电力行业大数据计算及分析,油田智能搜索等方面
展开
-
Lucene总结四:Lucene的索引文件格式(2)
四、具体格式上面曾经交代过,Lucene保存了从Index到Segment到Document到Field一直到Term的正向信息,也包括了从Term到Document映射的反向信息,还有其他一些Lucene特有的信息。下面对这三种信息一一介绍。4.1. 正向信息Index –> Segments (segments.gen, segments_N) –> Field(fnm, fdx, fdt) –> Term (tvx, tvd, tvf)上面的层次结构不是十分的准...原创 2020-05-31 21:00:53 · 536 阅读 · 0 评论 -
Lucene总结三:Lucene的索引文件格式(1)
当我们真正进入到Lucene源代码之中的时候,我们会发现:Lucene的索引过程,就是按照全文检索的基本过程,将倒排表写成此文件格式的过程。 Lucene的搜索过程,就是按照此文件格式将索引进去的信息读出来,然后计算每篇文档打分(score)的过程。本文详细解读了Apache Lucene - Index File Formats(http://lucene.apache.org/java/2_9_0/fileformats.html) 这篇文章。一、基本概念下图就是Lucene生成的索引的原创 2020-05-31 20:58:41 · 311 阅读 · 0 评论 -
Lucene总结二:Lucene的总体架构
如下技术文章也是从我之前很久开的csdn账号上面迁移过来的Lucene总的来说是:一个高效的,可扩展的,全文检索库。 全部用Java实现,无须配置。 仅支持纯文本文件的索引(Indexing)和搜索(Search)。 不负责由其他格式的文件抽取纯文本文件,或从网络中抓取文件的过程。在Lucene in action中,Lucene 的构架和过程如下图,说明Lucene是有索引和搜索的两个过程,包含索引创建,索引,搜索三个要点。让我们更细一些看Lucene的各组件:被索引的原创 2020-05-31 20:56:42 · 602 阅读 · 0 评论 -
Lucene总结一:全文检索的基本原理
如下技术文章也是从我之前很久开的csdn账号上面迁移过来的一、总论根据http://lucene.apache.org/java/docs/index.html定义:Lucene是一个高效的,基于Java的全文检索库。所以在了解Lucene之前要费一番工夫了解一下全文检索。那么什么叫做全文检索呢?这要从我们生活中的数据说起。我们生活中的数据总体分为两种:结构化数据和非结构化数据。结构化数据:指具有固定格式或有限长度的数据,如数据库,元数据等。 非结构化数据:指不定长或无固定格式原创 2020-05-31 20:54:20 · 365 阅读 · 0 评论 -
Lucene简介
一、 Lucene简介Lucene 是一个基于 Java 的全文信息检索工具包,它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能的一个开源框架。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。也是目前最为流行的基于 Java 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 Lucene 的,比如 Eclipse 的帮助系统的搜索功能。Lucene 能够为文本类型的数据建立索引,所以你只要能原创 2020-05-31 20:08:33 · 438 阅读 · 0 评论