搜索引擎小记

本文深入解析了Lucene的底层倒排索引机制,对比了Solr与Elasticsearch在搜索效率、实时索引能力及数据支持方面的优缺点。详细讨论了Solr在成熟社区、数据格式支持及稳定性上的优势,以及Elasticsearch在实时搜索、多租户处理及备份机制上的优越性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

lucene:
底层使用倒排索引:
倒排索引:
1.先将要存储索引的数据做编号形成文档列表(含有文档编号,跟其他字段)
2.将文档数据进行分词,得到很多分词,以词条为索引,根据词条保存含有这个词条的文档编号
3.将用户输入的内容进行分词得到词条,拿这些词条去倒排索引列表匹配;能匹配上就能找到包含这些词条的文档编号,根据文档编号查找文档并相应给用户
TestField(会创建索引也会被分词)StringField(会创建索引但不会被分词)

添加索引流程
1.创建字段(field)到文档对象(document)通过索引写入器(indexWriter){需要装置写入器配置对象(indexWriterConfig)配置分词器(analyzer)} 写入到目录类(Directory)

solr跟Elasticsearch的优缺点

solr:
优点
1、Solr有一个更大、更成熟的用户、开发和贡献者社区。
2、支持添加多种格式的索引,如:HTML、PDF、微软 Office 系列软件格式以及 JSON、XML、CSV 等纯文本格式。
3、Solr比较成熟、稳定。
4、不考虑建索引的同时进行搜索,速度更快。
缺点
建立索引时,搜索效率下降,实时索引搜索效率不高。

Elasticsearch
优点
1、Elasticsearch是分布式的。不需要其他组件,分发是实时的,被叫做”Push replication”。
2、Elasticsearch 完全支持 Apache Lucene 的接近实时的搜索。
3、处理多租户(multitenancy)不需要特殊配置,而Solr则需要更多的高级设置。
4、Elasticsearch 采用 Gateway 的概念,使得完备份更加简单。
5、各节点组成对等的网络结构,某些节点出现故障时会自动分配其他节点代替其进行工作。
缺点
1、还不够自动,不适合当前新的Index Warmup API (参考:http://zhaoyanblog.com/archives/764.html)

总结:
1、当单纯的对已有数据进行搜索时,Solr更快。
2、当实时建立索引时, Solr会产生io阻塞,查询性能较差, Elasticsearch具有明显的优势。
3、随着数据量的增加,Solr的搜索效率会变得更低,而Elasticsearch却没有明显的变化。
4、Solr的架构不适合实时搜索的应用。
5、Solr 支持更多格式的数据,而 Elasticsearch 仅支持json文件格式
6、Solr 在传统的搜索应用中表现好于 Elasticsearch,但在处理实时搜索应用时效率明显低于 Elasticsearch
7、Solr 是传统搜索应用的有力解决方案,但 Elasticsearch 更适用于新兴的实时搜索应用

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值