Logstash中grok filter example例子

最新推荐文章于 2024-08-05 22:55:58 发布

一年e度的夏天

最新推荐文章于 2024-08-05 22:55:58 发布

阅读量5.4k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：分布式文章标签： Logstash grok例子 filter例子 grok案例 grok怎么写

本文链接：https://blog.youkuaiyun.com/u011410529/article/details/59058200

分布式专栏收录该内容

1 篇文章

订阅专栏

title: Logstash中grok filter example例子

date: 2017-02-28

tags: 大数据

一、Logstash

本文适合有部分Logstash经验的人阅读，如果不懂Logstash是什么，请多加google，后面我会继续整理的

1、filters

Logstash核心组成部分就包括filters，这是个过滤器。一般日志中还是有很多有用信息的，利用Logstash的filter机制可以将这些信息抽取出来

1）、JSON Filter

这种方式对于日志数据源是json格式的比较有效，这里我不多讲，一般人日志不会特意弄成json格式的吧…

2)、Grok Filter

这种方式是我今天重点记录的，Grok是一种数据格式化工具，利用它就可以进行定制我们的格式化请求了。

我们先来看一段实例：

input {stdin{}}
filter{
    grok {
        match => {
           "message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"
        }
}
}
output {stdout{}}

input和output我省略了，这段代码重点看的是filter部分。其实就是一些类似正则表达式的东西，然后去匹配我们的log，然后转成一个个json，然后发给output，output我设置的es。

看了上面的匹配例子，大概心里有个底，长什么样子，下面来解析

牢记，每一个小表达式的样子就是%{IP:client}这种

辣么IP是什么？client是什么？IP是一种模式的名称，能够自动去匹配你log中的部分，这里IP顾名思义，看到了ip地址如127.0.0.1就会给这一条log起个key值，key是client，所以json里面就会多一条数据，多一条client=>127.0.0.1这样的
现有的模式我去哪里找？

这个问题问得比较好，官方其实是支持很多的，让我们来看看支持列表点击这里

上面的这个是Logstash1.4.2支持的，为什么没有新版的呢？？？这个问题下面回答
为什么没有新版的Logstash支持的patterns

在新版本的logstash里面，pattern目录已经为空，最后一个commit提示core patterns将会由logstash-patterns-core gem来提供，该目录可供用户存放自定义patterns，啥意思？也就是说用户可以自定义一些pattern然后保存在本地
怎么自定义

这里先留着，官方文档有，以后补充
这么麻烦，还有没有现成的？

答案是有，很多人帮你封装好了，地址在这里 ,这个是别人整理好的一些pattern，你可以按照他的安装方法，然后直接调用，里面有一些非常实用的表达式，比如可以直接解析tomcat打印出来的日志，直接一个表达式就搞定TOMCATLOG

下面我们来看一下grok的实例

我有一段thinkphp这样的日志：
```
2016-12-19 14:36:26,298 [INFO] appname._log[95]: send sms use channel :6 
2016-12-19 14:36:26,338 [INFO] appname._log[95]: send email use channel :4 
2016-12-19 14:36:26,498 [INFO] appname._log[95]: send email use channel :6  
```
首先要分析一下日志结构，才能写出相应的解析代码

日志结构：日期+[日志级别]+appname._log[行号]：详情

日期用年月日表示20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second})

日志级别：%{LOGLEVEL:level}

详情： (.*) 直接这个表达式搞定

其他特殊符号：比如说逗号，- 号等，我们可以原样写出即可，部分可能需要转义

所以整体上面是这样的
```
match => {
          "message"=>"20%{YEAR:year}-%{MONTHNUM:month}-%{MONTHDAY:day} %{HOUR:hour}:?%{MINUTE:minutes}(?::?%{SECOND:second}) \[%{LOGLEVEL:level}\] appname._log%{NAGIOSTIME:linenumber}: (.*)"
       }
```

我有一段tomcat的日志

2016-12-28 14:55:05,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
2016-12-28 14:55:06,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
2016-12-28 14:55:07,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy
2016-12-28 14:55:08,062 INFO |XmlWebApplicationContext                |Closing Root WebApplicationContext: startup date [Wed Dec 28 14:46:44 CST 2016]; root of context hierarchy

同样分析结构，如果安装了上面说的那个插件的话，就可以直接match => {"message" => "%{TOMCATLOG}"}这样一句话搞定，

我有一段nginx的日志

55.3.244.1 GET /index.html 15824 0.043

表达式可以像下面那样写

%{IP:client} %{WORD:method} %{URIPATHPARAM:request} %{NUMBER:bytes} %{NUMBER:duration}

验证你写的表达式是否正确

可以到这个验证网站验证一下你写的是否正确