lucene之分词,索引,存储

本文介绍了Lucene全文检索系统的三个核心概念:分词、索引和存储。详细解释了分词过程中如何剔除常见词汇以提高搜索效率,以及索引建立的不同方式。同时对比了分词索引和不分词直接索引的区别。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

全文检索(lucene):
刚接触lucene时,对分词,索引,存储不是很了解,经过深入的学习,逐渐连接了这三个的概念;
1,分词:就是剔除掉常见到词(当然这里可以自定义那些要被剔掉的词),如"我是java程序员,我用eclipse开发java",一般

人搜索不会输入"我","用","开发"这些词,我们把它们剔除掉,就剩下"java","程序员","eclipse","java"了;

2,索引:分为先分词再索引和不分词直接索引;
1)分词索引:比如上面那个经过分词后剩下"java","程序员","eclipse","java",按照一定的索引机制:对"java","程序员

","eclipse","java"建立索引(如"程序员",可能会建立两个索引,"程序","程序员"),以便能通过"eclipse"或者是"java"

等搜索到,输入分词时剔除掉的字就搜不到东西.
2)不分词直接索引,就是直接对"我是java程序员,我用eclipse开发java"建立索引,索引里有"我","是"等,所以你可以通过这些词搜索到内容.

3,存储:存储就是把原内容完完全全,原封不动地保存到索引里面;例如上面,把"我是java程序员,我用eclipse开发java",

直接保存到索引里,

4,索引:这里说的索引不是指的是一个文件,而是一个目录,这个目录下的所有东西集统称为索引

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值