作者:京东物流 李洪吉
提到ES,大多数爱好者想到的都是搜索引擎,但是明确一点,ES不等同于搜索引擎。不管是谷歌、百度、必应、搜狗为代表的自然语言处理(NLP)、爬虫、网页处理、大数据处理的全文搜索引擎,还是有明确搜索目的的搜索行为,如各大电商网站、OA、站内搜索、视频网站的垂直搜索引擎,他们或多或少都使用到了ES。
作为搜索引擎的一部分,ES自然具有速度快、结果准确、结果丰富等特点,那么ES是如何达到“搜索引擎”级别的查询效率呢?首先是索引,其次是压缩算法,接下来我们就一起了解下ES的索引结构和压缩算法
1 结构
1.1 Mysql
Mysql下的data目录存放的文件就是mysql相关数据,mysql文件夹对应的就是数据库mysql。
其中表columns_priv对应了3个文件:columns_priv.frm、columns_priv.MYD、columns_priv.MYI。
.frm:表结构;.MYD:myisam存储引擎原数据;.MYI:myisam存储引擎索引;.ibd:innodb存储引擎数据

1.2 Elasticsearch



文章详细介绍了Elasticsearch(Es)的索引结构,包括与Mysql的对比,以及倒排索引、词项字典和词项索引的概念。Es通过倒排索引实现快速查询,同时利用FOR和RBM压缩算法有效节约存储空间。FOR算法基于差值压缩,而RBM算法适用于处理稀疏数据。文章强调了在处理大量数据时,这些技术如何提升索引效率。
最低0.47元/天 解锁文章
2263

被折叠的 条评论
为什么被折叠?



