lucene全文检索的概念

本文详细介绍了数据的两种主要分类——结构化数据和非结构化数据,并探讨了各自的搜索方法,包括数据库中的SQL搜索、Windows元数据搜索、文档中的Ctrl+F顺序扫描法,以及高效的全文检索算法(如倒排索引)。同时,文中还讲解了分词和创建索引的过程,以及这些方法的优缺点。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据的分类:

      结构化数据:有固定类型或者有固定长度的数据

                   例如:数据库中的数据(mysql,oracle等),元数据(就是windows中的数据)

      结构化数据的搜索方法:

                   数据库中数据通过sql语句可以搜索

                   元数据(windows中的通过windows提供的搜索 栏进行搜索)

 

      非结构化数据:没有固定类型和固定长度的数据

                   例如:word文档中的数据,邮件中的数据

      非结构化数据搜索方法:

                   Word文档使用ctrl+F来搜索

      顺序扫描法:

ctrl+F中是使用的顺序扫描法,拿到搜索的关键字,去文档中,逐一匹配,直道找到和关键字一致的内容为止。

                            优点:如果文档中存在要找的关键字,就一定能找到想要的内容

                            缺点:慢,效率低

      全文检索算法(倒排索引算法):

                            将文件中的内容提取出来,将文字拆分成一个一个的词(分词),将这些词组成索引(字典中的目录),搜索的时候先搜索索引,通过索引找到文档,这个过程就叫做全文索引

        

         分词:去掉停用词(a,an,the,的,得,嗯,呵呵,啊)等。因为搜索的时候这些词没有意义,将橘子拆分成词,去掉标点符号和空格。

         优点:搜索速度快

         缺点:因为创建索引需要占用磁盘空间,所以这个算法会使用掉更多的磁盘空间,这是用空间换时间

 

拆分示例:

         结构化数据:有固定类型或者有固定长度的数据

 

         灰色是去掉的分词

        

         相同的词去掉:

                   结构

                   结构化

                   数据

                   有

                   固定

                   类型

                   或者

                   有

                   固定

                   长度

                   数据

 

 

如果觉得本文对您有所帮助,欢迎您扫码下图所示的支付宝和微信支付二维码对本文进行随意打赏。您的支持将鼓励我继续创作

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值