Logstash 详解：从入门到精通（2024 最新版）

最新推荐文章于 2025-09-22 23:46:00 发布

原创最新推荐文章于 2025-09-22 23:46:00 发布 · 875 阅读

25 ·

CC 4.0 BY-SA版权

文章标签：

#Logstash #Elasticsearch #学习

Logstash 专栏收录该内容

9 篇文章

订阅专栏

Logstash 详解：从入门到精通（2024 最新版）

Logstash 是 Elastic Stack（ELK） 的核心组件之一，是一个开源的 数据收集、处理与转发引擎，主要用于将来自不同来源的日志、事件、指标等数据进行 采集、过滤、转换，然后发送到 Elasticsearch、Kafka、文件等目的地。

它以强大的 插件生态 和灵活的 DSL 配置语言 著称，广泛应用于日志分析、安全审计、业务监控等场景。

一、Logstash 简介

1.1 什么是 Logstash？

Logstash 是一个基于 JVM 的数据处理管道（Data Pipeline），具备以下能力：

✅ 输入（Input）：从多种来源采集数据
✅ 过滤（Filter）：解析、清洗、转换数据
✅ 输出（Output）：将处理后的数据发送到目标系统

🎯 官网：https://www.elastic.co/logstash

1.2 Logstash 在 Elastic Stack 中的角色

组件	作用
Beats	轻量级采集器（如 Filebeat、Metricbeat）
Logstash	强大的数据处理中心（ETL）
Elasticsearch	存储与搜索分析引擎
Kibana	可视化与交互平台

💡 比喻：Logstash 是“厨房”，负责把原始食材（日志）洗净、切块、调味（解析），再端上桌（Elasticsearch）。

二、Logstash 核心架构

Logstash 的工作流程遵循典型的 三段式管道模型：

[Input] → [Filter] → [Output]

1. Input（输入）

从各种来源读取数据，支持：

文件（file）
网络（tcp, udp, syslog）
消息队列（kafka, redis, rabbitmq）
数据库（jdbc）
API（http, elasticsearch）

2. Filter（过滤器）

对数据进行结构化处理，常用功能：

解析日志格式（grok, json, csv）
时间字段提取（date）
字段增删改（mutate）
地理信息解析（geoip）
数据丰富（translate, dns）

3. Output（输出）

将处理后的数据发送到目标：

Elasticsearch（最常见）
Kafka（用于缓冲或分发）
文件（调试用）
邮件、Slack、HTTP 等告警通道

⚙️ 每个阶段可配置多个插件，并行处理。

三、安装与启动

3.1 系统要求

Java 8 或 11（Logstash 基于 JRuby 运行在 JVM 上）
Linux / macOS / Windows

3.2 安装方式

方式一：下载压缩包（推荐）

# 下载（以 8.11.3 为例）
wget https://artifacts.elastic.co/downloads/logstash/logstash-8.11.3-linux-x86_64.tar.gz

# 解压
tar -xzf logstash-8.11.3-linux-x86_64.tar.gz
cd logstash-8.11.3

方式二：使用包管理器（Ubuntu/CentOS）

# Ubuntu
wget -qO - https://artifacts.elastic.co/GPG-KEY-elasticsearch | sudo apt-key add -
echo "deb https://artifacts.elastic.co/packages/8.x/apt stable main" | sudo tee -a /etc/apt/sources.list.d/elastic-8.x.list
sudo apt update && sudo apt install logstash

# 启动
sudo systemctl start logstash

方式三：Docker

docker run -d \
  --name logstash \
  -p 5044:5044 \
  -v /path/to/pipeline:/usr/share/logstash/pipeline \
  docker.elastic.co/logstash/logstash:8.11.3

四、配置文件详解

Logstash 配置文件通常位于 config/logstash.yml（主配置）和 pipeline/logstash.conf（管道配置）。

4.1 主配置文件 `logstash.yml`（可选）

# 节点名称
node.name: logstash-01

# HTTP API 端口（监控用）
http.host: "0.0.0.0"
http.port: 9600

# 日志路径
path.logs: /var/log/logstash

# 启用监控
xpack.monitoring.enabled: true
xpack.monitoring.elasticsearch.hosts: ["http://es-node:9200"]

4.2 管道配置文件 `logstash.conf`

这是核心配置，定义 input → filter → output。

示例：收集 Nginx 日志并写入 Elasticsearch

# logstash.conf
input {
  file {
    path => "/var/log/nginx/access.log"
    start_position => "beginning"
    sincedb_path => "/dev/null"  # 测试环境不记录读取位置
    type => "nginx"
  }
}

filter {
  # 使用 Grok 解析 Nginx 日志
  grok {
    match => { "message" => "%{COMBINEDAPACHELOG}" }
  }

  # 提取时间字段
  date {
    match => [ "timestamp", "dd/MMM/yyyy:HH:mm:ss Z" ]
    target => "@timestamp"
  }

  # 转换字段类型
  mutate {
    convert => {
      "response" => "integer"
      "bytes" => "integer"
    }
    remove_field => ["timestamp", "message"]  # 清理冗余字段
  }

  # 添加地理信息
  geoip {
    source => "clientip"
    target => "geo_location"
  }
}

output {
  elasticsearch {
    hosts => ["http://elasticsearch:9200"]
    index => "nginx-logs-%{+YYYY.MM.dd}"
    user => "elastic"
    password => "your_password"
  }

  # 调试用：输出到控制台
  stdout {
    codec => rubydebug
  }
}

五、常用插件详解

5.1 Input 插件

插件	用途
`file`	读取日志文件（支持 tail）
`beats`	接收 Filebeat 发送的数据（常用）
`kafka`	从 Kafka 消费数据
`syslog`	接收 syslog 协议日志
`jdbc`	定时查询数据库（如 MySQL）

示例：接收 Beats 数据

input {
  beats {
    port => 5044
  }
}

5.2 Filter 插件（核心）

插件	功能
`grok`	正则解析非结构化日志（最强但最慢）
`json`	解析 JSON 日志
`kv`	解析 key=value 格式
`date`	时间字段解析
`mutate`	字段操作（重命名、删除、类型转换）
`geoip`	IP 地址转地理位置
`dissect`	轻量级分隔符解析（比 grok 快）

示例：使用 `dissect` 解析日志

filter {
  dissect {
    mapping => {
      "message" => '%{timestamp} %{+timestamp} %{level} [%{thread}] %{class} %{msg}'
    }
  }
}

5.3 Output 插件

插件	用途
`elasticsearch`	写入 ES（最常用）
`kafka`	发送到 Kafka 缓冲
`file`	写入本地文件（调试或备份）
`stdout`	输出到控制台（调试）
`http`	调用 Webhook（如钉钉告警）
`email`	发送邮件告警

示例：发送告警到钉钉

output {
  http {
    url => "https://oapi.dingtalk.com/robot/send?access_token=xxx"
    http_method => "post"
    format => "json"
    content_type => "application/json"
    message => '{"msgtype": "text", "text": {"content": "错误日志: %{message}"}}'
  }
}

六、性能调优技巧

6.1 合理设置 JVM 内存

编辑 jvm.options：

-Xms4g
-Xmx4g

建议：生产环境分配 4~8GB，避免过大导致 GC 停顿。

6.2 使用持久队列（Persistent Queue）

防止数据丢失，尤其在网络中断或 ES 不可用时。

# logstash.yml
queue.type: persisted
queue.max_bytes: 4gb

数据先写入磁盘队列，再异步发送。

6.3 启用批处理与压缩

output {
  elasticsearch {
    hosts => ["..."]
    index => "logs-%{+YYYY.MM.dd}"
    # 批量写入
    flush_size => 2000
    # 请求压缩
    http_compression => true
    # 并发工作线程
    workers => 2
  }
}

6.4 优化 Grok 性能

使用 dissect 替代简单格式日志
使用预定义 pattern：%{SYSLOGTIMESTAMP}, %{IP}, %{WORD}
缓存 pattern：pattern_definitions 避免重复编译

grok {
  match => { "message" => "%{TIMESTAMP_ISO8601:ts} %{LOGLEVEL:level} %{GREEDYDATA:msg}" }
}

七、典型使用场景

场景	实现方式
Nginx/Apache 日志分析	Filebeat → Logstash（grok）→ ES → Kibana
Java 应用日志采集	App → stdout → Filebeat → Logstash（json）→ ES
数据库变更同步	MySQL → JDBC Input → ES
安全日志集中分析	Syslog → Logstash → ES
多数据源聚合	Kafka → Logstash（统一处理）→ ES

八、Logstash vs Beats 对比

特性	Logstash	Beats
资源消耗	高（JVM）	低（Go 编写）
功能	强大（支持复杂过滤）	简单（轻量采集）
适用场景	中心化处理、ETL	边缘采集、主机部署
启动方式	服务常驻	轻量进程

✅ 最佳实践：Beats 采集 → Kafka → Logstash 处理 → Elasticsearch

九、常见问题与排查

问题	解决方案
启动失败	检查 Java 版本、内存、配置语法
数据不进 ES	检查网络、认证、index template
内存溢出	减小 `batch_size`，优化 filter
重复数据	检查 `sincedb` 是否被清空
时间错误	使用 `date` filter 正确解析