PyLucene学习之一

Lucene是一款高性能的、可扩展的信息检索工具库,用于文档搜索、内部信息搜索及元数据搜索。其核心功能包括索引链构建、内容获取、文档建立、分析、索引以及搜索组件,实现快速文本搜索。

简介

Lucene是一款高性能的、可扩展的信息检索工具库。
信息检索是指文档搜索,文档内信息搜索或者文档相关的元数据搜索等操作。
Lucene只是搜索程序的核心索引和搜索模块

搜索程序首先需要实现的功能是索引链, 分为以下几个步骤:
1. 检索原始内容
2. 根据原始内容来创建对应的文档
3. 对创建的文档进行索引

Raw Content -> Acquire Content -> Build Document -> Analyze Document -> Index Docuement -> Index

为了快速搜索大量的文本,必须首先建立针对文本索引,将文本内容转换成能够进行快速搜索的格式,从而消除慢速顺序扫描处理带来的影响。此过程称为索引操作,输出就是索引。

索引组件:

  1. 获取内容:爬虫或者其他方式获取待索引的文本内容,Lucene并不提供这方面支持
  2. 建立文档
  3. 文档分析
    将文本分割成一系列被称为语汇单元的独立的原子元素,这个步骤即决定文档中的文本域如何分割成语汇单元系列。
  4. 文档索引

搜索组件:

搜索质量衡量:查准率, 查全率
1. 用户搜索界面(自己用,可以写的搓一些)
2. 建立查询(Luence存在默认的查询解析器)
3. 搜索查询
查询检索索引并返回与查询语句匹配的文档
4. 展现结果

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值