从0到1：Kubernetes上Elasticsearch集群的生产级部署指南-优快云博客

从0到1：Kubernetes上Elasticsearch集群的生产级部署指南

你是否还在为容器化环境中Elasticsearch（ES）集群的稳定性发愁？节点频繁脑裂、数据丢失风险、资源配置混乱——这些问题不仅影响搜索性能，更可能导致业务中断。本文将基于kubernetes-elasticsearch-cluster项目，提供一套经过验证的生产级部署方案，帮你彻底解决容器化ES集群的运维痛点。

读完本文你将掌握：

三种节点角色（Master/Data/Ingest）的最佳配置实践
Deployment与StatefulSet两种部署模式的选型决策
防脑裂、高可用、数据持久化的关键配置
资源调优与故障排查的实战技巧
完整的部署流程与验证步骤

架构设计：Elasticsearch集群的Kubernetes化实践

节点角色分离原则

Elasticsearch（ES）官方推荐将节点按功能分离为三种角色，以优化集群性能和稳定性：

mermaid

角色功能对比表

功能	Master节点	Data节点	Ingest节点
集群状态管理	✅ 核心功能	❌	❌
数据存储	❌	✅ 核心功能	❌
文档预处理	❌	❌	✅ 核心功能
HTTP API服务	❌	✅	✅
参与Master选举	✅	❌	❌
资源消耗特点	CPU/内存敏感	I/O密集	CPU密集

Kubernetes部署架构

本项目提供两种部署模式，适应不同场景需求：

mermaid

两种模式关键差异

对比项	Deployment模式	StatefulSet模式
适用场景	开发/测试环境	生产环境
存储类型	emptyDir(临时存储)	PersistentVolume(持久化)
网络标识	随机Pod名称	固定DNS名称(es-data-0等)
扩容顺序	并行创建	顺序创建/更新
数据持久化	❌ 重启丢失	✅ 持久保留
部署复杂度	低	中

部署实战：从基础到生产的完整流程

环境准备与前置检查

最低系统要求

Kubernetes集群版本：1.11.x+（已验证v1.11.2）
节点资源：每个节点至少2CPU/4GB内存
系统配置：vm.max_map_count=262144（ES内存映射需求）
网络策略：允许9200(HTTP)/9300(Transport)端口通信

初始化检查命令

# 验证Kubernetes版本
kubectl version --short

# 检查节点资源
kubectl describe nodes | grep -A 10 "Allocatable"

# 验证系统参数（所有节点）
sysctl vm.max_map_count  # 应返回262144

基础部署：快速启动集群（开发测试）

以下是使用Deployment快速部署完整ES集群的步骤：

# 1. 创建发现服务（必选，用于节点通信）
kubectl create -f es-discovery-svc.yaml

# 2. 创建Master节点（3副本确保高可用）
kubectl create -f es-master.yaml
kubectl rollout status -f es-master.yaml  # 等待部署完成

# 3. 创建Ingest节点（2副本处理数据预处理）
kubectl create -f es-ingest-svc.yaml
kubectl create -f es-ingest.yaml
kubectl rollout status -f es-ingest.yaml

# 4. 创建Data节点（2副本存储数据）
kubectl create -f es-svc.yaml  # 数据节点服务
kubectl create -f es-data.yaml
kubectl rollout status -f es-data.yaml

部署验证

# 检查所有ES相关资源
kubectl get svc,deploy,pods -l component=elasticsearch

# 预期输出示例
NAME                              TYPE        CLUSTER-IP       EXTERNAL-IP   PORT(S)    
service/elasticsearch             ClusterIP   10.100.243.196   <none>        9200/TCP   
service/elasticsearch-discovery   ClusterIP   None             <none>        9300/TCP   
service/elasticsearch-ingest      ClusterIP   10.100.76.74     <none>        9200/TCP   

NAME                              DESIRED   CURRENT   UP-TO-DATE   AVAILABLE
deployment.extensions/es-data     2         2         2            2        
deployment.extensions/es-ingest   2         2         2            2        
deployment.extensions/es-master   3         3         3            3

生产级部署：StatefulSet与持久化存储

生产环境推荐使用StatefulSet部署Data节点，确保数据持久化和稳定的网络标识：

# 创建StatefulSet数据节点
kubectl create -f stateful/es-data-svc.yaml  # 无头服务
kubectl create -f stateful/es-data-stateful.yaml
kubectl rollout status statefulset/es-data

# 创建PodDisruptionBudget确保可用性
kubectl create -f es-master-pdb.yaml  # Master节点PDB
kubectl create -f es-data-pdb.yaml    # Data节点PDB

StatefulSet关键配置解析

# stateful/es-data-stateful.yaml 核心片段
apiVersion: apps/v1
kind: StatefulSet
metadata:
  name: es-data
spec:
  serviceName: elasticsearch-data  # 关联无头服务
  replicas: 3                      # 生产建议3+副本
  volumeClaimTemplates:            # 动态PVC模板
  - metadata:
      name: storage
    spec:
      storageClassName: standard
      accessModes: [ "ReadWriteOnce" ]
      resources:
        requests:
          storage: 12Gi            # 每节点12Gi存储

持久化存储优势

数据安全：Pod重建时自动挂载原有数据卷，避免数据丢失
状态稳定：固定DNS名称（es-data-0.elasticsearch-data.default.svc.cluster.local）
有序部署：按序号依次创建/更新，避免集群波动
存储隔离：每个节点拥有独立存储，避免I/O资源竞争

核心配置详解：构建高可用ES集群

防脑裂配置：minimum_master_nodes参数

脑裂（Split-Brain）是分布式系统的致命问题，当Master节点集群分裂为多个小集群时会导致数据不一致。解决方案是正确配置最小Master节点数：

# es-master.yaml 关键配置
env:
- name: NUMBER_OF_MASTERS
  value: "2"  # 公式: (master节点数 / 2) + 1

Master节点数量与最小Master数对应表

Master节点总数	minimum_master_nodes	容错能力	推荐环境
1	1	0节点	开发环境
3	2	1节点	生产环境
5	3	2节点	大规模集群

⚠️ 警告：若未正确配置此参数，在Master节点故障时可能导致集群不可用或数据丢失

节点亲和性配置：避免单点故障

通过Pod反亲和性规则，确保同一角色的ES节点分散部署在不同Kubernetes节点上：

# 推荐添加到es-data.yaml的affinity配置
affinity:
  podAntiAffinity:
    preferredDuringSchedulingIgnoredDuringExecution:
    - weight: 100
      podAffinityTerm:
        labelSelector:
          matchExpressions:
          - key: component
            operator: In
            values: [elasticsearch]
          - key: role
            operator: In
            values: [data]
        topologyKey: kubernetes.io/hostname  # 按主机名分散

亲和性配置效果

mermaid

资源配置优化：平衡性能与稳定性

ES节点对资源非常敏感，不当配置会导致OOM或性能瓶颈。以下是推荐的资源配置：

# 资源配置示例 (es-data.yaml)
resources:
  requests:
    cpu: 0.25        # 初始分配
    memory: 2Gi      # 生产建议至少2Gi
  limits:
    cpu: 1           # 最大限制
    memory: 4Gi      # 不要超过物理内存的50%
env:
- name: ES_JAVA_OPTS
  value: "-Xms2g -Xmx2g"  # 堆内存设为物理内存的50%

JVM堆内存配置建议

节点类型	推荐堆内存	对应物理内存	适用场景
Master	1-2G	2-4G	集群管理
Data	4-8G	8-16G	数据存储
Ingest	2-4G	4-8G	数据处理

⚠️ 注意：ES_JAVA_OPTS的Xms和Xmx必须设置为相同值，避免JVM堆内存动态调整影响性能

健康检查配置：确保服务可用性

# 综合健康检查配置
livenessProbe:          # 存活探针：检测进程状态
  tcpSocket:
    port: transport     # 9300端口(TCP)
  initialDelaySeconds: 20  # 启动后20秒开始检查
  periodSeconds: 10        # 每10秒检查一次

readinessProbe:         # 就绪探针：检测服务可用性
  httpGet:
    path: /_cluster/health  # 调用ES健康API
    port: http              # 9200端口(HTTP)
  initialDelaySeconds: 20
  timeoutSeconds: 5

探针配置说明

存活探针：通过TCP连接检测9300端口，确认ES进程是否存活
就绪探针：通过HTTP请求/_cluster/health端点，确认节点已加入集群并正常工作
延迟启动：initialDelaySeconds设为20秒，给ES足够的启动时间

高级功能：从监控到数据管理

Kibana部署：可视化监控平台

Kibana是ES官方的可视化工具，可通过以下命令快速部署：

# 部署Kibana
kubectl create -f kibana-cm.yaml     # 配置文件
kubectl create -f kibana-svc.yaml    # 服务定义
kubectl create -f kibana.yaml        # 部署文件

# 访问Kibana (通过API代理)
kubectl proxy --port=8080
# 访问地址: http://localhost:8080/api/v1/namespaces/default/services/kibana:http/proxy

Kibana配置优化

# kibana-cm.yaml 关键配置
data:
  kibana.yml: |
    elasticsearch.hosts: ["http://elasticsearch:9200"]
    server.maxPayloadBytes: 10485760  # 增加最大请求大小
    logging.verbose: false            # 生产环境关闭详细日志

索引生命周期管理：Curator定时清理

使用Curator定期清理旧索引，避免存储空间耗尽：

# 部署Curator定时任务
kubectl create -f es-curator-config.yaml  # 配置文件
kubectl create -f es-curator.yaml         # CronJob定义

Curator配置示例

# es-curator-config.yaml 清理策略
action_file.yaml: |
  actions:
    1:
      action: delete_indices
      description: "删除7天前的日志索引"
      options:
        ignore_empty_list: True
        timeout_override:
        continue_if_exception: False
      filters:
      - filtertype: pattern
        kind: prefix
        value: logstash-
      - filtertype: age
        source: name
        direction: older
        timestring: '%Y.%m.%d'
        unit: days
        unit_count: 7

插件安装：扩展ES功能

通过环境变量ES_PLUGINS_INSTALL指定需要安装的插件：

# 安装S3和GCS存储插件示例
env:
- name: ES_PLUGINS_INSTALL
  value: "repository-s3,repository-gcs"

常用插件推荐

插件名称	用途	安装命令
repository-s3	S3快照存储	repository-s3
repository-gcs	GCS快照存储	repository-gcs
analysis-ik	中文分词	https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.3.2/elasticsearch-analysis-ik-6.3.2.zip
mapper-attachments	附件处理	mapper-attachments

故障排查与性能调优

常见问题解决方案

1. 节点无法加入集群

# 错误日志特征
No up-and-running site-local (private) addresses found

# 解决方案：指定网络接口
env:
- name: "NETWORK_HOST"
  value: "_eth0_"  # 替换为实际网卡名称

2. 内存不足(OOM)问题

# 错误日志特征
Java heap space or OutOfMemoryError

# 解决方案：调整JVM堆内存
env:
- name: ES_JAVA_OPTS
  value: "-Xms4g -Xmx4g"  # 设为物理内存的50%，且不超过31G

3. 集群健康状态为red

# 排查步骤
1. 检查未分配分片: curl http://<es-ip>:9200/_cat/shards?v | grep UNASSIGNED
2. 查看分片原因: curl http://<es-ip>:9200/_cluster/allocation/explain
3. 常见解决方法:
   - 增加Data节点
   - 调整分片配置
   - 手动分配分片: POST /_cluster/reroute

性能调优清单

资源调优

CPU限制：为Data节点设置适当CPU限制（推荐2-4核）
内存配置：ES_JAVA_OPTS设为物理内存的50%，剩余留给系统缓存
存储类型：生产环境使用SSD存储，提高I/O性能

ES参数调优

# 推荐添加到环境变量的调优参数
- name: "indices.memory.index_buffer_size"
  value: "30%"  # 索引缓冲区大小
- name: "indices.fielddata.cache.size"
  value: "20%"  # 字段数据缓存大小
- name: "thread_pool.write.queue_size"
  value: "1000" # 写队列大小

部署验证与运维工具

集群状态验证

# 1. 检查集群健康状态
curl http://<es-service-ip>:9200/_cluster/health?pretty

# 健康输出示例
{
  "cluster_name" : "myesdb",
  "status" : "green",  # green=健康 yellow=部分副本未分配 red=主分片未分配
  "number_of_nodes" : 7,
  "number_of_data_nodes" : 3,
  "active_primary_shards" : 0,
  "active_shards" : 0,
  "relocating_shards" : 0,
  "initializing_shards" : 0,
  "unassigned_shards" : 0
}

# 2. 查看节点角色分布
curl http://<es-service-ip>:9200/_cat/nodes?v

# 3. 监控索引状态
curl http://<es-service-ip>:9200/_cat/indices?v

实用运维命令

集群备份

# 创建快照仓库
curl -X PUT "http://<es-ip>:9200/_snapshot/my_backup" -H 'Content-Type: application/json' -d'
{
  "type": "fs",
  "settings": {
    "location": "/data/backup",
    "compress": true
  }
}'

# 创建快照
curl -X PUT "http://<es-ip>:9200/_snapshot/my_backup/snapshot_1?wait_for_completion=true"

性能监控

# 查看节点统计信息
curl http://<es-ip>:9200/_nodes/stats?pretty

# 监控JVM状态
curl http://<es-ip>:9200/_nodes/jvm?pretty

总结与最佳实践

通过本文介绍的部署方案，你已经掌握了在Kubernetes上构建生产级Elasticsearch集群的关键技术：

架构设计：采用Master/Data/Ingest角色分离，提高集群稳定性和性能
部署模式：开发环境使用Deployment快速部署，生产环境使用StatefulSet确保数据安全
高可用配置：正确设置minimum_master_nodes和Pod反亲和性，避免脑裂和单点故障
资源优化：合理配置CPU/内存资源，JVM堆内存设为物理内存的50%
运维工具：使用Kibana可视化监控，Curator管理索引生命周期

生产环境检查清单

Master节点数≥3，配置minimum_master_nodes
Data节点使用StatefulSet+PVC持久化存储
配置Pod反亲和性，避免单点故障
设置资源限制和请求，防止资源竞争
部署PDB确保集群可用性
配置备份策略和索引生命周期管理
实施健康检查和监控告警

项目地址：https://gitcode.com/gh_mirrors/ku/kubernetes-elasticsearch-cluster

⚠️ 注意：该项目已停止维护，请评估后使用或考虑官方Helm Chart

通过这套方案，你可以构建一个稳定、高效、可扩展的Elasticsearch集群，为业务提供强大的搜索和数据分析能力。记住，分布式系统的运维是一个持续优化的过程，需要根据实际业务场景不断调整和优化配置。

如果你觉得本文对你有帮助，请点赞、收藏并关注，下期将带来"Elasticsearch性能调优实战"，深入探讨分片策略、查询优化和监控告警体系构建。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考