Filebeat + ES + kibana Ingest node 做解析

本文介绍了如何利用Filebeat、ES和Kibana组合进行日志收集,并解决Filebeat解析能力有限的问题。文章通过实例展示了如何在ES 5.x及以上版本创建Ingest Node pipeline,使用Grok语法解析日志,提取时间、线程、日志级别、Java类名和内容等关键信息,并将时间字段转换为标准日期格式。最后,文中提及了如何配置Filebeat使用预处理pipeline以及处理可能的错误。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

https://zhuanlan.zhihu.com/p/77413046

使用Filebeat + ES + Kibina的组合进行日志收集的一个优点就是轻量级,因为去掉了笨重的logstash, 占用资源更少。但这也引入了一个问题,即filebeat并没有logstash那样强大的日志解析能力,往往只能把整条日志当成一个整体扔到ES中。好消息是,ES从5.x版本开始引入了Ingest Node,即允许你在对文档进行索引之前进行预处理,且支持logstash的Grok语法。因此我们可以在ES中针对我们的日志格式创建一个预处理pipeline, 通过配置pipeline中的processor完成日志解析。

以下面这条日志为基础举例:

[2019-02-19 17:04:28:017] http-nio-8050-exec-2 INFO c.b.o.xxx.ms.api.TaskController - response = {"jobId":"123","ms":10}

我们期望能够将这条日志中的时间2019-02-19 17:04:28:017、线程http-nio-8050-exec-2、日志级别INFO、Java类名c.b.o.xxx.ms.api.TaskController和日志正文response = {"jobId":"123","ms":10}分别提取出来方便我们日后在kibana中做筛选统计, 同时时间要以日志中打印的时间为基准而不是filebeat发送消息时的时间。为了实现这一目标,我们可以向ES发一个HTTP请求创建一个名为xxx-log的pipeline:

PUT /_ingest/pipeline/xxx-log HTTP/1.1
Host: localhost:8200
Content-Type: application/json
{
  "description" : "xxx-log",
  "processors": [
    {
      "grok": {
        "field": "message",
        "patterns": ["\\[%{TIMESTAMP_ISO8601:log_time}\\] %{NOTSPACE:thread} %{NOTSPACE:log_level} %{NOTSPACE:java_class} - %{GREEDYDATA:content}"]
      }
    },
    {
        "date": {
            "field": "log_time",
            "formats": ["yyyy-MM-dd HH:mm:ss:SSS"],
            "timezone": "Asia/Shanghai",
            "target_field": "@timestamp"
        }
    }
  ]
}

在这里我们定义了两个processor,第一个为grok处理器,用于解析日志字符串提取其中关键字段; 第二个是日期处理器,功能为把log_time字段以yyyy-MM-dd HH:mm:ss:SSS格式解析成日期,然后将结果保存到@timestamp字段中。

创建完processor以后,我们只需要配置filebeat在输出日志到ES时使用这个名为xxx-log的预处理器即可:

这样就完成了所有的工作。这时启动filebeat, 如果如出以下错误信息

ERROR pipeline/output.go:92 Failed to publish events: temporary bulk send failure

大概率是因为你发送的日志格式无法与grok表达式匹配,修改processor定义json即可。也可以在启动filebeat时添加-d "*"参数来查看具体的错误原因。

下图是日志在kibana中的展示效果:

可以看到主要的字段都已经被正确解析。

<think>好的,用户现在想要在Kubernetes集群内部署Elasticsearch、Fluentd和Kibana(EFK)技术栈的文档。首先,我需要理解用户的需求。用户可能正在搭建一个日志管理系统,用于收集、存储和可视化Kubernetes中的日志。EFK是一个常见的组合,其中Fluentd负责日志收集,Elasticsearch存储日志,Kibana提供可视化界面。 接下来,我需要考虑用户可能的背景。他们可能是有一定Kubernetes基础的系统管理员或DevOps工程师,但可能对EFK的具体部署步骤不太熟悉。用户可能希望有一个详细的指南,帮助他们一步步完成部署,并解决可能遇到的问题。 然后,我需要组织内容结构。首先介绍EFK各组件的作用,然后详细说明部署步骤,包括命名空间创建、Elasticsearch部署、Fluentd配置、Kibana部署以及验证步骤。此外,常见问题和优化建议也很重要,帮助用户应对实际部署中的挑战。 在编写具体步骤时,需要注意Kubernetes的资源配置,比如Elasticsearch的StatefulSet需要持久化存储,资源限制,以及节点亲和性设置。Fluentd的配置需要涉及DaemonSet,确保每个节点运行一个Pod来收集日志。Kibana的部署则需要注意服务暴露的方式,比如NodePort或Ingress。 同时,要检查用户之前的问题历史。用户之前询问过Filebeat处理多行日志的问题,现在转向EFK,可能对日志收集的可靠性和扩展性有更高要求。因此,在文档中需要强调Fluentd在多行日志处理上的优势,并可能提供相关配置示例。 另外,用户可能关心如何验证部署是否成功,所以需要包括检查Pod状态、访问Kibana界面以及测试日志收集的步骤。常见问题部分需要覆盖存储问题、资源不足、Fluentd配置错误等,提供具体的解决方案。 最后,优化建议部分应该帮助用户提升性能和稳定性,比如Elasticsearch的索引策略、Fluentd的缓冲区配置和Kibana的优化。这些内容能够帮助用户在生产环境中更好地管理EFK栈。 总结来说,需要提供一个结构清晰、步骤详细、包含故障排查和优化建议的文档,帮助用户在K8s上顺利部署EFK,满足日志管理的需求。</think>以下是基于 Kubernetes 集群部署 **Elasticsearch + Fluentd + Kibana (EFK)** 技术栈的完整文档: --- ### 一、架构概述 ```mermaid graph TD A[应用Pod日志] -->|stdout/stderr| B[K8s节点/var/log/containers] B -->|DaemonSet采集| C[Fluentd] C -->|结构化处理| D[Elasticsearch] D -->|数据存储| E[Kibana可视化] ``` --- ### 二、前置条件 1. **Kubernetes 集群版本** ≥ 1.18 2. **存储类(StorageClass)**:支持动态卷供应(如 `rook-ceph`, `nfs`) 3. **资源配额**:建议每个节点预留至少 2CPU + 4GB 内存 4. **Helm 工具**:用于快速部署(版本 ≥ 3.0) --- ### 三、详细部署步骤 #### 步骤 1:创建专用命名空间 ```bash kubectl create namespace efk ``` #### 步骤 2:部署 Elasticsearch ```yaml # elasticsearch-statefulset.yaml apiVersion: apps/v1 kind: StatefulSet metadata: name: elasticsearch namespace: efk spec: serviceName: elasticsearch replicas: 3 selector: matchLabels: app: elasticsearch template: metadata: labels: app: elasticsearch spec: affinity: podAntiAffinity: requiredDuringSchedulingIgnoredDuringExecution: - labelSelector: matchExpressions: - key: app operator: In values: ["elasticsearch"] topologyKey: "kubernetes.io/hostname" containers: - name: elasticsearch image: docker.elastic.co/elasticsearch/elasticsearch:7.17.3 resources: limits: memory: 4Gi requests: cpu: 1000m memory: 2Gi env: - name: discovery.type value: single-node # 生产环境需改为 zen 发现机制 - name: ES_JAVA_OPTS value: "-Xms2g -Xmx2g" ports: - containerPort: 9200 name: http volumeMounts: - name: data mountPath: /usr/share/elasticsearch/data volumes: - name: data persistentVolumeClaim: claimName: es-data-pvc --- # elasticsearch-service.yaml apiVersion: v1 kind: Service metadata: name: elasticsearch namespace: efk spec: selector: app: elasticsearch ports: - port: 9200 name: http clusterIP: None ``` #### 步骤 3:部署 Fluentd ```yaml # fluentd-configmap.yaml apiVersion: v1 kind: ConfigMap metadata: name: fluentd-config namespace: efk data: fluent.conf: | <source> @type tail path /var/log/containers/*.log pos_file /var/log/fluentd-containers.log.pos tag kube.* read_from_head true <parse> @type json time_format %Y-%m-%dT%H:%M:%S.%NZ </parse> </source> <filter kube.**> @type kubernetes_metadata </filter> <match kube.**> @type elasticsearch host elasticsearch.efk.svc.cluster.local port 9200 logstash_format true logstash_prefix fluentd flush_interval 5s </match> --- # fluentd-daemonset.yaml apiVersion: apps/v1 kind: DaemonSet metadata: name: fluentd namespace: efk spec: selector: matchLabels: app: fluentd template: metadata: labels: app: fluentd spec: tolerations: - key: node-role.kubernetes.io/master effect: NoSchedule containers: - name: fluentd image: fluent/fluentd-kubernetes-daemonset:v1.16-debian-elasticsearch7 env: - name: FLUENT_ELASTICSEARCH_HOST value: "elasticsearch.efk.svc.cluster.local" - name: FLUENT_ELASTICSEARCH_PORT value: "9200" resources: limits: memory: 512Mi requests: cpu: 100m memory: 200Mi volumeMounts: - name: varlog mountPath: /var/log - name: config-volume mountPath: /fluentd/etc/conf.d volumes: - name: varlog hostPath: path: /var/log - name: config-volume configMap: name: fluentd-config ``` #### 步骤 4:部署 Kibana ```yaml # kibana-deployment.yaml apiVersion: apps/v1 kind: Deployment metadata: name: kibana namespace: efk spec: replicas: 1 selector: matchLabels: app: kibana template: metadata: labels: app: kibana spec: containers: - name: kibana image: docker.elastic.co/kibana/kibana:7.17.3 resources: limits: memory: 1Gi requests: cpu: 500m memory: 512Mi env: - name: ELASTICSEARCH_HOSTS value: "http://elasticsearch.efk.svc.cluster.local:9200" ports: - containerPort: 5601 --- # kibana-service.yaml apiVersion: v1 kind: Service metadata: name: kibana namespace: efk spec: type: NodePort selector: app: kibana ports: - port: 5601 targetPort: 5601 nodePort: 30601 ``` --- ### 四、验证部署 1. **检查 Pod 状态**: ```bash kubectl -n efk get pods -l app=elasticsearch kubectl -n efk get pods -l app=fluentd kubectl -n efk get pods -l app=kibana ``` 2. **访问 Kibana**: - 浏览器访问 `http://<任意节点IP>:30601` - 创建索引模式 `fluentd-*` 3. **测试日志收集**: ```bash kubectl run test-logger --image=alpine -- sh -c "while true; do echo 'EFK test log'; sleep 5; done" ``` --- ### 五、常见问题处理 #### 问题 1:Elasticsearch 无法启动 - **现象**:Pod 处于 `CrashLoopBackOff` 状态 - **排查**: ```bash kubectl -n efk logs elasticsearch-0 ``` - **解决方案**:检查存储类是否可用,调整 Java 堆内存参数 #### 问题 2:Fluentd 无法连接 Elasticsearch - **现象**:日志中出现 `Connection refused` 错误 - **排查**: ```bash kubectl -n efk exec -it fluentd-xxxxx -- curl elasticsearch:9200 ``` - **解决方案**:检查 Service 域名解析,确认网络策略允许通信 --- ### 六、生产环境优化建议 1. **Elasticsearch 优化**: - 使用专用节点角色(master/data/ingest) - 配置索引生命周期管理 (ILM) ```yaml # 示例索引模板 PUT _template/logs { "index_patterns": ["fluentd-*"], "settings": { "number_of_shards": 3, "number_of_replicas": 1, "index.lifecycle.name": "logs_policy" } } ``` 2. **Fluentd 优化**: - 增加缓冲区配置防止数据丢失 ```conf <match **> @type elasticsearch buffer_type memory buffer_chunk_limit 32m buffer_queue_limit 1024 flush_interval 5s </match> ``` 3. **Kibana 优化**: - 启用 X-Pack 安全模块 - 配置 Ingress + TLS 证书 --- ### 附:快速部署命令(Helm 方式) ```bash # 添加 Helm 仓库 helm repo add elastic https://helm.elastic.co # 部署 Elasticsearch helm install elasticsearch elastic/elasticsearch -n efk # 部署 Kibana helm install kibana elastic/kibana -n efk # 部署 Fluentd helm install fluentd stable/fluentd --set elasticsearch.host=elasticsearch-master.efk.svc.cluster.local ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值