ES系列之Logstash实战入门

最新推荐文章于 2025-03-19 11:59:00 发布

原创

最新推荐文章于 2025-03-19 11:59:00 发布

· 2.3k 阅读

版权

文章标签：

本文围绕Logstash展开，它是ELK技术栈一员，可高效采集数据到ES。介绍了其原理，数据经input、filter、output三阶段处理；说明了安装、目录和配置方法；列举组件插件；通过采集Nginx日志、增量抽取表数据等实战展示应用；还提及进阶的条件语法、插件管理等内容。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

概述

作为ELK技术栈一员，Logstash用于将数据采集到ES，通过简单配置就能把各种外部数据采集到索引中进行保存，可提高数据采集的效率。

数据源提供的数据进入Logstash的管道后需要经过3个阶段：

从官网下载解压即可使用，找到bin目录下的脚本文件，双击即可完成安装。

命令行启动会覆盖logstash.yml里的配置：

配置	说明
`path.data`	配置Logstash运行时产生的临时数据目录，默认为data目录
`pipeline.workers`	从临时队列中消费数据进行过滤处理的线程数
`pipeline.batch.size`	单个线程能够多从队列中一次性消费的事件数目，默认值125
`pipeline.ordered`	控制数据流是否有序输出，若为talse则不能保证数据有序向外输出；若为true则只启用一个工作线程进行消费，保证数据有序。默认值为auto，只有在工作线程数设置为1时才保证有序
`path.config`	指定启动的数据采集脚本的目录
`config.reload.automatic`	若为true，则自动检查并加載最新的采集脚本，修改采集脚本后可以避免重启Logstash实例；若为talse，则采集脚本修改后需重启Logstash才能生效
`queue.type`	用于设置缓冲队列的类型，默认队列保存在内存中，若设置为persisted则会将队列数据持久化地存储到磁盘上
`path.logs`	配置Logstash运行时产生日志的目录，默认是安装目录中的logs目录
`dead_letter_queue.enable`	配置是否开启死亡消息队列功能，默认不开启。如果开启，则会把处理失败的数据持久化地存储到磁盘上以便将来有机会重新执行

jvm.options文件主要用于调整Logstash的JVM堆内存大小，默认值为1GB。通常这个值应该配置为4GB～8GB，最好不要超过机器物理内存大小的一半。性能调优时，可动态调整此配置并观察数据抽取速度与内存使用率，在两者之间取得平衡。

在一个Logstash进程中运行多个数据管道，即同时执行多个采集脚本，有两种方法：

- pipeline.id: test
 pipeline.workers: 1
 pipeline.batch.size: 1
 path.config: &#