如今数据是越来越重要了,日志就是很重要的数据来源了。通过对日志的分析,可以了解用户习惯、发现系统缺陷。通过shell脚本、awk就可以对日志文件进行处理,但是很耗费时间、精力。所以ELK(Elasticsearch、Logstash、Kinaba)就成为了日志分析的不二首选。笔者在对ELK的学习过程中get到两点:
- 新学习一项技能的时候,有官方文档(手册)优先使用官方文档(即便是英文,也可以借助翻译工具),可以少走弯路;
- 坊间:【Elasticsearch 来源于作者 Shay Banon 的第一个开源项目 Compass 库,而这个 Java 库最初的目的只是为了给 Shay 当时正在学厨师的妻子做一个菜谱的搜索引擎。】(真的是很有爱!)
ELK系统至少有三部分组成:
- Logstash:读取日志文件,进行过滤,输出到MQ或者ElasticSearch;
- ElasticSearch·:日志的记录经过处理之后,以文档的形式存储在ElasticSearch服务器上;
- Kibana:算是ElasticSearch的一个可视化操作系统,类似一个后台管理系统,对ElasticSearch服务器的数据进行筛选、查询、统计。
Logstash:
logstash -f file.conf
启动Logstash,以配置文件的方式,file.conf文件中三部分需要写:
input {
file {
path => [ "/data/tmp.log" ] #日志的目录
start_position => "beginning" # 从文件开头采集
}
}
filter {
#各种插件
}
output {
#输出(可以输出到kafka、Elasticsearch等)
stdout {
codec=>rubydebug
}
}
Logstash的使用,filter模块使用各种插件对日志文件进行初步简单过滤,如分割等。output模块配置过滤后的文档内容输出位置,可以直接输出到ElasticSearch、MQ(Rabbit、Kafka)等一般会先输出到MQ,经过处理(如:解密、内容解压缩)之后,再将内容存储到ElasticSearch(这时候就需要用到ElasticSearch Client了),ElasticSearch官方提供了Java、Python等语言的Client。
ElasticSearch:
ElasticSearch,翻译成中文的意思就是【弹性搜索】。直观的感觉是将文本数据结构化存储,最常用的应该就是将数据存储为Json数据格式。调用ElasticSearch服务提供的接口(RESTFUL),可以对进行增加、删除、甚至是修改。ElasticSearch服务成功部署在Linux服务器上,需要用非root用户(为保证安全)。ElasticSearch的操作过程中有两个参数很重要,index和type,从这两个维度去划分文档记录。如index为日期,type为error就可以代表某天的错误日志记录。
ElasticSearch主要是数据存储,暂不做过多介绍。
Kibana:
Kibana可看做是对ElasticSearch的一个补充(个人认为),Kibana开箱即用,提供了友好的界面,更加方便进行ElasticSearch的操作,无须开发(运维)人员写代码(如有特殊需要,也可在console窗口写RESTFUL请求操作ElasticSearch)。最重要的是,Kibana可以以各种图表的形式展示结果,更加友好。
Kibana最常用的模块是【Discover】、【Visualize】、【Dashboard】。
【Discover】:按照条件筛选数据,形成数据集合;
【Visualize】:将【Discover】形成的数据集合以图形表格的形式展示出来,如饼状图;
【Dashboard】:将多个【Visualize】图表整合,一块展示出来。
另外还有两个模块:【Management】、【Dev Tools】
【Management】:主要是index的管理界面,index pattern等管理等。
【Dev Tools】:提供console窗口,自定义请求操作ElasticSearch,查看返回结果。