简介
Lucene是一款高性能的、可扩展的信息检索工具库。
信息检索是指文档搜索,文档内信息搜索或者文档相关的元数据搜索等操作。
Lucene只是搜索程序的核心索引和搜索模块
搜索程序首先需要实现的功能是索引链, 分为以下几个步骤:
1. 检索原始内容
2. 根据原始内容来创建对应的文档
3. 对创建的文档进行索引
Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index
为了快速搜索大量的文本,必须首先建立针对文本索引,将文本内容转换成能够进行快速搜索的格式,从而消除慢速顺序扫描处理带来的影响。此过程称为索引操作,输出就是索引。
索引组件:
- 获取内容:爬虫或者其他方式获取待索引的文本内容,Lucene并不提供这方面支持
- 建立文档
- 文档分析
将文本分割成一系列被称为语汇单元的独立的原子元素,这个步骤即决定文档中的文本域如何分割成语汇单元系列。 - 文档索引
搜索组件:
搜索质量衡量:查准率, 查全率
1. 用户搜索界面(自己用,可以写的搓一些)
2. 建立查询(Luence存在默认的查询解析器)
3. 搜索查询
查询检索索引并返回与查询语句匹配的文档
4. 展现结果
Lucene是一款高性能的、可扩展的信息检索工具库,用于文档搜索、内部信息搜索及元数据搜索。其核心功能包括索引链构建、内容获取、文档建立、分析、索引以及搜索组件,实现快速文本搜索。
1736

被折叠的 条评论
为什么被折叠?



