Elasticsearch 底层存储原理解密

本文深入解析了Elasticsearch数据写入流程,包括客户端如何通过路由到达指定分片,数据从JVM内存到OS Cache再到磁盘的全过程,以及translog日志的生成与作用,揭示了ES实现近实时搜索和数据恢复的机制。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

        好久没写博客了,今天闲来无事,剖析下Elasticsearch,es最近这几年异常的火爆,其开箱即用,天然支持分布式的特性越来越受到欢迎,目前笔者所在的公司主要用es存储日志类型的信息.

         闲话不多说,默认有es相关的基础,当客户端想es的shard中写入数据的时候,过程大致如下:

         客户端通过路由节点到达指定的shard分片,es的shard地层就是lunces的index

              1.数据首先写被入es的jvm内存中,此时数据对外不可见.

              2.默认每隔1s将jvm的数据写入到底层lunces的os cache中,一旦写入到os cache中数据即可查询出来.所以es可以做到近实时的搜索.

              3.默认每隔30分钟将数据从os  cache中flush到磁盘上,成为一个个的segment file

          此时可能有人就问了如果节点宕机数据岂不是丢失了,没错的为了解决这个问题,es默认每隔5s中生成translog日志持久化到磁盘上,用于节点重启的时候进行数据恢复使用(你可以理解成mysql中的binlog)

              4,translog也是默认写到os  cache中的当translog到达一定发值的时候就会触发commit操作,生成磁盘文件.

              5,primary shard写入成功后会同步到其他的replica shard去.

              6,当primary  shard 和replica shard节点都写完后,协调节点会返回给客户端数据写入成功的响应

         es会定期进行merge操作,进行segment file的合并,当我们删除索引数据的时候并不是直接进行物理删除,而是给数据打标,逻辑删除,当进行segment 合并的时候会将标记删除的文件进行物理删除操作.

        最后给你们贴个图以便于理解:此图原创作者中华石山如有侵权请尽快通知

标题

 

### Elasticsearch存储机制和原理 #### 3.1 数据索引过程 当文档被发送到 Elasticsearch 中时,该文档会被解析并转换为倒排索引结构。此过程中涉及多个组件协同工作来确保高效的数据处理和检索[^4]。 #### 3.2 分片与副本 为了支持大规模数据集以及高可用性需求,Elasticsearch 使用分片(shards)技术将单个索引拆分成更小的部分,并分布在网络中的不同节点上。每个主分片都有零个或多个只读副本来提供冗余,在部分集群成员失效的情况下维持服务连续性和查询性能[^1]。 #### 3.3 刷新周期 每当有新的更改发生——无论是新增还是更新现有记录——都会暂时存放在内存缓冲区内直到满足特定阈值才会触发一次完整的提交操作。这期间可以通过配置参数调整自动刷新频率,默认情况下每秒执行一次刷新动作以保持近实时特性[^2]。 #### 3.4 存储层实现细节 底层依赖于 Apache Lucene 来管理实际文件系统的交互逻辑;具体而言就是利用其 Segment 文件作为物理载体保存经过压缩编码后的字段内容及其对应的元信息。随着不断积累新版本 segment 合并旧版从而优化磁盘空间利用率的同时也提高了搜索效率。 ```python # Python 示例:创建一个新的索引并向其中添加一条记录 from elasticsearch import Elasticsearch es = Elasticsearch() doc = { 'author': 'John Doe', 'text': 'Elasticsearch is a distributed search and analytics engine.' } res = es.index(index="test-index", id=1, body=doc) print(res['result']) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值