Logstash中grok filter example例子

title: Logstash中grok filter example例子

date: 2017-02-28

tags: 大数据


一、Logstash

本文适合有部分Logstash经验的人阅读,如果不懂Logstash是什么,请多加google,后面我会继续整理的

1、filters

Logstash核心组成部分就包括filters,这是个过滤器。一般日志中还是有很多有用信息的,利用Logstash的filter机制可以将这些信息抽取出来

1)、JSON Filter

​ 这种方式对于日志数据源是json格式的比较有效,这里我不多讲,一般人日志不会特意弄成json格式的吧…

2)、Grok Filter
这种方式是我今天重点记录的,Grok是一种数据格式化工具,利用它就可以进行定制我们的格式化请求了。

​ 我们先来看一段实例:

input {stdin{}}
filter{
    grok {
        match => {
           "message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"
        }
}
}
output {stdout{}}

​ input和output我省略了,这段代码重点看的是filter部分。其实就是一些类似正则表达式的东西,然后去匹配我们的log,然后转成一个个json,然后发给output,output我设置的es。

看了上面的匹配例子,大概心里有个底,长什么样子,下面来解析
  • 牢记,每一个小表达式的样子就是%{IP:client}这种

    辣么IP是什么?client是什么?IP是一种模式的名称,能够自动去匹配你log中的部分,这里IP顾名思义,看到了ip地址如127.0.0.1就会给这一条log起个key值,key是client,所以json里面就会多一条数据,多一条client=>127.0.0.1这样的

  • 现有的模式我去哪里找?

    这个问题问得比较好,官方其实是支持很多的,让我们来看看支持列表点击这里

    上面的这个是Logstash1.4.2支持的,为什么没有新版的呢???这个问题下面回答

  • 为什么没有新版的Logstash支持的patterns

    在新版本的logstash里面,pattern目录已经为空,最后一个commit提示core patterns将会由logstash-patterns-core gem来提供,该目录可供用户存放自定义patterns,啥意思?也就是说用户可以自定义一些pattern然后保存在本地

  • 怎么自定义

    这里先留着,官方文档有,以后补充

  • 这么麻烦,还有没有现成的?

    答案是有,很多人帮你封装好了,地址在这里 ,这个是别人整理好的一些pattern,你可以按照他的安装方法,然后直接调用,里面有一些非常实用的表达式,比如可以直接解析tomcat打印出来的日志,直接一个表达式就搞定TOMCATLOG

下面我们来看一下grok的实例
  1. 我有一段thinkphp这样的日志:

    2016-12-19 14:36:26,298 [INFO] appname._log[95]: send sms use channel :6 
    2016-12-19 14:36:26,338 [INFO] appname._log[95]: send email use channel :4 
    2016-12-19 14:36:26,498 [INFO] appname._log[95]: send email use channel :6  

    首先要分析一下日志结构,才能写出相应的解析代码

    日志结构:日期+[日志级别]+appname._log[行号]:详情

    日期用年月日表示20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second})

    日志级别:%{LOGLEVEL:level}

    详情: (.*) 直接这个表达式搞定

    其他特殊符号:比如说逗号,- 号等,我们可以原样写出即可,部分可能需要转义

    所以整体上面是这样的

    match => {
              "message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"
           }
  2. 我有一段tomcat的日志

    2016-12-28 14:55:05,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
    2016-12-28 14:55:06,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
    2016-12-28 14:55:07,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
    2016-12-28 14:55:08,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
    

    同样分析结构,如果安装了上面说的那个插件的话,就可以直接match => {"message" => "%{TOMCATLOG}"}这样一句话搞定,

  3. 我有一段nginx的日志

    55.3.244.1 GET /index.html 15824 0.043

    表达式可以像下面那样写

    %{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}
  4. 验证你写的表达式是否正确

    可以到这个验证网站验证一下你写的是否正确

### Logstash 中 `type` 字段的用法 在 Logstash 的数据处理管道中,`type` 是一个非常重要的字段,用于区分不同类型的事件。它可以帮助用户更灵活地过滤和路由日志数据到不同的目标。 #### 1. 配置中的 `type` 使用 当通过输入插件(如 file、beats 或 kafka)接收数据时,可以为每条记录指定一个 `type` 值。这个值通常用来表示该记录所属的日志类别或来源。例如,在 Filebeat 输入配置中: ```plaintext input { beats { port => 5044 type => "apache-access" } } ``` 上述例子表明所有来自 Beats 协议的数据都将被标记为 `apache-access` 类型[^2]。 #### 2. 过滤器阶段的应用 在过滤器部分,可以根据 `type` 来应用特定规则集。比如只对某些类型的日志执行 Grok 解析或其他转换操作: ```plaintext filter { if [type] == "apache-access" { grok { match => { "message" => "%{COMBINEDAPACHELOG}" } } } else if [type] == "syslog" { grok { match => { "message" => "%{SYSLOGLINE}" } } } } ``` 这里展示了如何基于不同类型分别设置解析模式[^3]。 #### 3. 输出阶段的作用 最后,在输出环节也可以利用此属性决定哪些消息发送给哪个目的地或者采用何种格式化方式呈现出来: ```plaintext output { elasticsearch { hosts => ["http://localhost:9200"] index => "%{[@metadata][beat]}-%{+YYYY.MM.dd}" } stdout {} if [type] == "error-log"{ email { to=>"admin@example.com" subject=>"Error Detected!" body=>"%{message}" } } } ``` 上面代码片段说明了依据文档种类选择性推送至电子邮件服务的情况[^4]。 #### 注意事项 需要注意的是从版本6.x 开始官方建议减少直接依赖于硬编码类型名的做法,转而推荐更加动态的方法来实现相同功能,因为这样能够提高系统的可维护性和扩展能力[^5]。 ### 结论 综上所述,合理运用好 logstash pipeline里的[type], 不仅可以让整个流程变得更加清晰易懂而且还能极大地增强其灵活性与适应范围.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值