ELFK、卡夫卡+EFLFK

sologuai

已于 2022-11-16 10:17:22 修改

阅读量354

点赞数

文章标签：服务器

于 2022-11-16 09:55:08 首次发布

本文链接：https://blog.youkuaiyun.com/shitianyu6/article/details/127877694

版权

本文详细介绍了ELK集群的部署，Logstash的过滤模块，特别是grok插件的使用。接着讲解了Zookeeper的工作机制、特点和应用场景。然后阐述了消息队列Kafka的特性、系统架构，以及Kafka与ELK的整合，实现EFLFK数据流的完整流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、ELFK

1.1 部署ELK集群

注意：ELFK集群环境下，Logstash 组件所在节点的/etc/logstash/conf.d目录下，不需要创建system.conf配置文件，即Logstash不需要收集系统日志，因为系统日志将由filebeat收集后发送给Logstash。（安装filebeat后，Logstash会创建filebeat.conf配置文件获取filebeat传来的数据）

1.2 安装 Filebeat（在apache节点操作）

#上传软件包 filebeat-6.2.4-linux-x86_64.tar.gz 到/opt目录
 tar zxvf filebeat-6.2.4-linux-x86_64.tar.gz
 mv filebeat-6.2.4-linux-x86_64/ /usr/local/filebeat

1.3 设置 filebeat 的主配置文件

cd /usr/local/filebeat
 
 vim filebeat.yml
 filebeat.prospectors:
 - type: log         #指定 log 类型，从日志文件中读取消息
   enabled: true
   paths:
     - /var/log/messages       #指定监控的日志文件
     - /var/log/*.log
   tags: ["sys"]     #设置索引标签
   fields:           #可以使用 fields 配置选项设置一些参数字段添加到 output 中
     service_name: filebeat
     log_type: syslog
     from: 192.168.121.30
 
 --------------Elasticsearch output-------------------
 (全部注释掉)
 
 ----------------Logstash output---------------------
 output.logstash:
   hosts: ["192.168.121.30:5044"]      #指定 logstash 的 IP 和端口
 
 #启动 filebeat
 nohup ./filebeat -e -c filebeat.yml > filebeat.out &
 #-e：输出到标准输出，禁用syslog/文件输出
 #-c：指定配置文件
 #nohup：在系统后台不挂断地运行命令，退出终端不会影响程序的运行

1.4 在 Logstash 组件所在节点上新建一个 Logstash 配置文件

 cd /etc/logstash/conf.d
 
 vim filebeat.conf
 input {
     beats {
         port => "5044"
     }
 }
 output {
     elasticsearch {
         hosts => ["192.168.121.10:9200","192.168.121.20:9200"]
         index => "%{[fields][service_name]}-%{+YYYY.MM.dd}"
     }
     stdout {
         codec => rubydebug
     }
 }
 
 #启动 logstash
 logstash -f filebeat.conf

二、Logstash的过滤模块

2.1 Logstash配置文件中的模块

1、input {}

指定输入流，通过file、beats、kafka、redis中获取数据

2、filter {}

常用插件：

grok：对若干个大文本字段进行再分割，分割成一些小字段（?<字段名>正则表达式）字段名：正则表示匹配到的内容
date：对数据中的时间进行统一格式化
mutate：对一些无用的字段进行剔除，或增加字段
mutiline：对多行数据进行统一编排，多行合并和拆分

3、ourput {}

elasticsearch stdout

2.2 Filter（过滤模块）中的插件

而对于 Logstash 的 Filter，这个才是 Logstash 最强大的地方。Filter 插件也非常多，我们常用到的 grok、date、mutate、mutiline 四个插件。

grok插件（通过grok插件实现对字段的分割，使用通配符）

这里就要用到 logstash 的 filter 中的 grok 插件。filebeat 发送给 logstash 的日志内容会放到message 字段里面，logstash 匹配这个 message 字段就可以了。

匹配格式：(?<字段名>正则表达式)
 
 # 字段名：正则表达式匹配到的内容

(?<remote_addr>%{IPV6}|%{IPV4} )(?<other_info>.+)
 #对数据进行分割ip字段名为remote_addr， 其他字段名为other_info

(?<remote_addr>%{IPV6}|%{IPV4} )[\s-]+[(?<log_time>.+)](?<other_info>.+)
 #添加匹配时间字段

#分割多个字段
 (?<remote_addr>%{IPV6}|%{IPV4})[\s-]+[(?<log_time>.+)]\s+"(?<http_method>\S+)\s+(?<url-path>.+)"\s+(?<rev_code>\d+)(?<other_info>.+)

cd /etc/logstash/conf.d/
 cp filebeat.conf filter.conf
 
 vim filter.conf
 input {
     beats {
         port => "5044"
     }
 }
 filter {
   grok {
      match =>["message","(?<remote_addr>%{IPV6}|%{IPV4} )[\s-]+[(?<log_time>.+)]\s+"(?<http_method>\S+)\s+(?<url-path>.+)"\s+(?<rev_code>\d+)(?<other_info>.+)"]
   }
 }
 output {
     elasticsearch {
         hosts => ["192.168.121.10:9200","192.168.121.20:9200"]
         index => "{[filter][service_name]}-%{+YYYY.MM.dd}"
     }
     stdout {
         codec => rubydebug
     }
 }
  logstash -f filter.conf   #启动