ElasticSearch refresh和flush的理解

本文介绍了Elasticsearch中两种重要的索引刷新机制——_refresh和_flush。_refresh负责将内存中的文档同步到文件系统缓存,使文档可被搜索;而_flush则涉及将更改持久化到磁盘,并清理translog日志文件。文章还讨论了translog的自动flush策略及其对写入性能的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  在索引数据的时候,要保证被索引的文档能够立即被搜索到,就要涉及到_refresh 和_flush这两个方法。

  1、fresh

    当索引一个文档,文档先是被存储在内存里面,默认1秒后,会进入文件系统缓存,这样该文档就可以被搜索到,但是该文档还没有存储到磁盘上,如果机器宕机了,数据就会丢失。

    因此fresh实现的是从内存到文件系统缓存的过程。

  2、flush

    flush是用于translog的。

    ES为了数据的安全,在接受写入文档的时候,在写入内存buffer的同时,会写一份translog日志,从而在出现程序故障或磁盘异常时,保证数据的安全。

    flush会触发lucene commit,并清空translog日志文件。

    translog的flush是ES在后头自动运行的。默认情况下ES每隔5s会去检测要不要flush translog,默认条件是:每 30 分钟主动进行一次 flush,或者当 translog 文件大小大于 512MB主动进行一次 flush。

    每次 index、bulk、delete、update 完成的时候,一定触发flush translog 到磁盘上,才给请求返回 200 OK。这个改变提高了数据安全性,但是会对写入的性能造成不小的影响。

    在写入效率优先的情况下,可以在 index template 里设置如下参数:"index.translog.durability":"async" 和 "index.translog.sync_interval":30s (默认是5s)。

 

Elasticsearch 中,`flush` 线程池 `refresh` 线程池是两个不同的线程池,用于执行不同的操作。 1. **Flush 线程池**:Flush 操作是将内存中的数据刷新到磁盘上的持久化存储,以确保数据的持久性一致性。当执行索引、更新或删除操作时,数据首先被写入内存中的缓冲区(称为 translog),然后通过 Flush 操作将缓冲区的数据刷新到磁盘上的索引文件。Flush 操作可以通过 `flush` API 或者自动触发来执行。 Flush 线程池负责执行 Flush 操作,它控制着 Flush 操作的并发度资源使用。线程池中的线程会按照优先级处理 Flush 请求,确保数据及时地写入磁盘,以避免数据丢失。 2. **Refresh 线程池**:Refresh 操作是使最新的写入操作对搜索可见。Elasticsearch 使用一种叫做 "近实时(Near Real-Time)" 的模型,即在文档被索引后,它并不立即对搜索可见,而是在 Refresh 操作后才能被搜索到。Refresh 操作可以通过 `refresh` API 或者自动触发来执行。 Refresh 线程池负责执行 Refresh 操作,它控制着 Refresh 操作的并发度资源使用。线程池中的线程会按照优先级处理 Refresh 请求,确保最新的写入操作能够及时对搜索可见。 总结来说,Flush 线程池负责将内存中的数据刷新到磁盘,以确保数据的持久性;而 Refresh 线程池负责使最新的写入操作对搜索可见。 在默认情况下,Flush Refresh 操作都是自动执行的,并且它们在 Elasticsearch 的内部进行管理。但是,您也可以手动触发 FlushRefresh 操作,以满足特定的需求。 请注意,线程池的大小配置对系统性能有一定影响。根据集群的负载情况性能需求,您可能需要调整线程池的配置参数来优化系统的性能资源利用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值