es-stat.txt分析ES内存占用高问题

最新推荐文章于 2025-06-24 23:47:45 发布

原创最新推荐文章于 2025-06-24 23:47:45 发布 · 833 阅读

CC 4.0 BY-SA版权

文章标签：

68 篇文章

订阅专栏

从 es-stat.txt 文件分析来看， Elasticsearch 集群包含 3 个节点，每个节点内存分配和使用情况如下：

节点	JVM Heap 使用率	Heap 已用	Heap 最大	JVM 外内存 Direct/Mapped 使用
节点A	67%	~2.9 GB	4 GB	Direct: ~162 MB Mapped: ~187 GB
节点B	57%	~2.5 GB	4 GB	Direct: ~220 MB Mapped: ~173 GB
节点C	46%	~2.0 GB	4 GB	Direct: ~186 MB Mapped: ~160 GB

⚠️ 重点异常：Mapped 内存使用极高（非 heap 区域，主要是 memory-mapped files 造成的）。

所有节点都有 Mapped 内存使用超过 160 GB（甚至高达 187 GB）。
原因：Elasticsearch 默认使用 memory-mapped files (mmapfs) 来访问索引数据。如果 segment 较多、索引量大，会显著占用系统内存。
解决建议：
- 优化索引结构，减少 segment（减少合并频率 & 调整 refresh 间隔）。
- 如果你用的是 Docker/Kubernetes，建议通过 bootstrap.memory_lock: true 锁住 JVM 使用的内存，避免映射文件占用主机物理内存。

节点A：uncommitted translog 约 1.55 GB。
节点B：约 1.1 GB。
节点C：约 0.9 GB。
原因：写入量大但未及时刷盘，或者刷新间隔设置不合理。
解决建议：
- 检查 index.translog.flush_threshold_size 和 index.translog.durability 设置。
- 考虑增加手动 flush 频率，或者设置为 async 模式减小堆外占用。

节点A、B、C：segment memory 分别为 ~306MB, ~317MB, ~354MB。
这部分是 Lucene segment 的缓存内容，包括倒排索引、存储字段、DocValues。
优化建议：
- 减少小 segment：开启 forcemerge 或调整 index.merge.scheduler.max_thread_count。
- 开启压缩存储。

优化点	建议
JVM 堆配置	当前是 4GB，建议不超过总内存的 50%。若总内存是 64GB，可考虑提升到 8GB，但注意操作系统 page cache 空间也要保留。
内存锁定	启用 `bootstrap.memory_lock: true` 并在 systemd/k8s 中增加 `--ulimit memlock unlimited`，防止 heap 被 swap 或 file mapped 干扰。
文件描述符	当前 `open_file_descriptors` 已达 2k+，但最大是 1M，短期内问题不大，但需关注。
merge/refresh 频率	merge 总耗时、refresh 非常频繁，建议通过调整 `refresh_interval` 增加刷新间隔，减少资源消耗。

node-1    heap: 67%  mapped: 187GB  ip: 10.0.0.1
node-2    heap: 57%  mapped: 173GB  ip: 10.0.0.2
node-3    heap: 46%  mapped: 160GB  ip: 10.0.0.3