Groovy日志分析：ELK Stack实战指南-优快云博客

Groovy日志分析：ELK Stack实战指南

【免费下载链接】groovy apache/groovy: 这是一个开源的动态编程语言，类似于Java，但具有更简洁的语法和更强的表现力。它主要用于快速原型设计、脚本编写和自动化任务。适合需要快速开发、灵活性和简洁性的开发者。项目地址: https://gitcode.com/gh_mirrors/gr/groovy

引言：日志分析的痛点与解决方案

在现代软件开发和运维中，日志分析是排查问题、监控系统状态的关键环节。然而，面对海量、分散的日志数据，传统的手动查看方式效率低下，难以满足快速定位问题的需求。Groovy作为一种强大的动态编程语言，在日志处理方面展现出独特优势。本文将详细介绍如何结合ELK Stack（Elasticsearch、Logstash、Kibana）与Groovy，构建高效的日志分析系统，解决日志收集、处理、存储和可视化的全流程问题。

读完本文，您将能够：

理解Groovy在日志处理中的优势
掌握ELK Stack的基本架构和部署方法
学会使用Groovy编写Logstash过滤器
构建完整的日志收集、处理、存储和可视化流程
运用高级技巧优化日志分析系统性能

1. Groovy与日志处理基础

1.1 Groovy语言简介

Groovy是一种基于JVM（Java虚拟机）的动态编程语言，它结合了Python、Ruby和Smalltalk的特性，同时保持了与Java的完全兼容性。Groovy具有简洁的语法、强大的元编程能力和丰富的类库，使其成为日志处理和数据分析的理想选择。

// Groovy简洁的日志输出示例
def logger = java.util.logging.Logger.getLogger("GroovyLogExample")
logger.info("这是一条Groovy日志信息")
logger.warning("这是一条警告日志")
try {
    // 一些可能抛出异常的操作
    def result = 1 / 0
} catch (Exception e) {
    logger.severe("发生异常: ${e.message}")
}

1.2 Groovy日志框架

Groovy提供了多种日志解决方案，包括：

Java标准日志API (java.util.logging)：Groovy内置支持，无需额外依赖
SLF4J (Simple Logging Facade for Java)：作为日志门面，可与多种日志实现框架配合使用
Logback：功能强大的日志实现框架，与SLF4J无缝集成
Groovy特定日志注解：如@Slf4j、@Log等，简化日志使用

// 使用@Slf4j注解简化日志使用
import groovy.transform.Slf4j

@Slf4j
class GroovyLogExample {
    void processData() {
        log.debug("开始处理数据")
        // 数据处理逻辑
        log.info("数据处理完成，共处理了${data.size()}条记录")
        if (data.isEmpty()) {
            log.warn("没有数据需要处理")
        }
    }
}

1.3 Groovy在日志处理中的优势

简洁的语法：减少样板代码，提高开发效率
强大的字符串处理：支持GString插值，便于日志格式化
闭包和函数式编程：简化复杂的日志数据转换和过滤
元编程能力：可动态修改日志行为，适应不同场景需求
与Java生态系统的兼容性：可无缝集成Java日志框架和工具

2. ELK Stack架构与部署

2.1 ELK Stack组件介绍

ELK Stack是三个开源项目的首字母缩写：

Elasticsearch：分布式搜索引擎，用于存储和索引日志数据
Logstash：日志收集和处理引擎，支持多种输入、过滤和输出插件
Kibana：日志可视化平台，提供丰富的图表和仪表盘

mermaid

2.2 ELK Stack部署指南

2.2.1 环境准备

JDK 11或更高版本
至少4GB内存（生产环境建议8GB以上）
20GB以上可用磁盘空间
Linux或Windows操作系统

2.2.2 安装步骤

Elasticsearch安装

# 下载并解压Elasticsearch
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-8.6.0-linux-x86_64.tar.gz
tar -xzf elasticsearch-8.6.0-linux-x86_64.tar.gz
cd elasticsearch-8.6.0

# 启动Elasticsearch
./bin/elasticsearch

Logstash安装

# 下载并解压Logstash
wget https://artifacts.elastic.co/downloads/logstash/logstash-8.6.0-linux-x86_64.tar.gz
tar -xzf logstash-8.6.0-linux-x86_64.tar.gz
cd logstash-8.6.0

# 测试Logstash配置
./bin/logstash -e 'input { stdin {} } output { stdout {} }'

Kibana安装

# 下载并解压Kibana
wget https://artifacts.elastic.co/downloads/kibana/kibana-8.6.0-linux-x86_64.tar.gz
tar -xzf kibana-8.6.0-linux-x86_64.tar.gz
cd kibana-8.6.0

# 启动Kibana
./bin/kibana

2.3 基本配置与验证

Elasticsearch配置验证

# 检查Elasticsearch是否正常运行
curl -X GET "http://localhost:9200/"

预期输出：

{
  "name" : "node-1",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx",
  "version" : {
    "number" : "8.6.0",
    "build_flavor" : "default",
    "build_type" : "tar",
    "build_hash" : "180c7334aa2b929d12dce1a41f7b33a901f31f21",
    "build_date" : "2023-01-04T22:40:28.835716820Z",
    "build_snapshot" : false,
    "lucene_version" : "9.4.2",
    "minimum_wire_compatibility_version" : "7.17.0",
    "minimum_index_compatibility_version" : "7.0.0"
  },
  "tagline" : "You Know, for Search"
}

3. Groovy与Logstash集成

3.1 Logstash架构与工作流程

Logstash的工作流程主要包括三个阶段：

输入(Input)：从各种来源收集日志数据
过滤(Filter)：对日志数据进行处理和转换
输出(Output)：将处理后的日志数据发送到目标存储

mermaid

3.2 Groovy过滤器插件

Logstash提供了ruby过滤器插件，可以直接运行Groovy代码（因为Groovy兼容JVM）。通过Groovy，我们可以实现复杂的日志处理逻辑。

安装必要的依赖

# 在Logstash安装目录中安装logstash-filter-ruby插件
bin/logstash-plugin install logstash-filter-ruby

基本Groovy过滤器配置

filter {
  ruby {
    code => '
      # 这里可以编写Groovy代码
      event.set("groovy_processed", true)
      event.set("processing_time", java.lang.System.currentTimeMillis() - event.get("@timestamp").toEpochMilli())
      
      # 示例：提取日志级别
      def logMessage = event.get("message")
      if (logMessage =~ /ERROR|WARN|INFO|DEBUG/) {
        def level = (logMessage =~ /(ERROR|WARN|INFO|DEBUG)/)[0][1]
        event.set("log_level", level)
      }
    '
    add_field => { "filter_source" => "groovy_script" }
  }
}

3.3 使用Groovy处理复杂日志场景

3.3.1 日志结构化

将非结构化日志转换为结构化数据：

filter {
  ruby {
    code => '
      def message = event.get("message")
      // 使用Groovy正则表达式解析日志
      def pattern = ~/\[(?<timestamp>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] \[(?<level>\w+)\] \[(?<logger>[^\]]+)\] (?<message>.+)/
      def matcher = pattern.matcher(message)
      
      if (matcher.matches()) {
        event.set("timestamp", matcher.group("timestamp"))
        event.set("level", matcher.group("level"))
        event.set("logger", matcher.group("logger"))
        event.set("message", matcher.group("message"))
      }
    '
  }
}

3.3.2 日志数据清洗与转换

filter {
  ruby {
    code => '
      // 移除敏感信息
      def message = event.get("message")
      if (message) {
        // 掩盖信用卡号
        message = message.replaceAll(/\b(?:\d{4}[-\s]?){3}\d{4}\b/, "XXXX-XXXX-XXXX-####")
        // 掩盖邮箱地址
        message = message.replaceAll(/\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b/, "***@masked.domain")
        event.set("message", message)
      }
      
      // 转换日志级别为统一格式
      def level = event.get("level")
      if (level) {
        event.set("level", level.toUpperCase())
        // 添加日志级别数值，便于排序和筛选
        def levelNum = ["DEBUG":1, "INFO":2, "WARN":3, "ERROR":4, "FATAL":5].get(level.toUpperCase(), 0)
        event.set("level_num", levelNum)
      }
    '
  }
}

3.3.3 多日志源整合

filter {
  ruby {
    code => '
      // 根据日志来源应用不同的处理逻辑
      def source = event.get("source")
      
      if (source.contains("application")) {
        // 应用日志处理逻辑
        processApplicationLog(event)
      } else if (source.contains("database")) {
        // 数据库日志处理逻辑
        processDatabaseLog(event)
      } else if (source.contains("server")) {
        // 服务器日志处理逻辑
        processServerLog(event)
      }
      
      // 定义处理函数
      def processApplicationLog(event) {
        // 应用日志特定处理
        event.set("log_type", "application")
        // 其他处理...
      }
      
      def processDatabaseLog(event) {
        // 数据库日志特定处理
        event.set("log_type", "database")
        // 提取SQL执行时间
        def message = event.get("message")
        def matcher = (message =~ /Query executed in (\d+) ms/)
        if (matcher.matches()) {
          event.set("query_time_ms", matcher[0][1].toInteger())
        }
      }
      
      def processServerLog(event) {
        // 服务器日志特定处理
        event.set("log_type", "server")
        // 其他处理...
      }
    '
  }
}

3.4 Groovy过滤器性能优化

避免重复计算：缓存正则表达式和常用对象
批量处理：对多条日志应用相同的处理逻辑
异步处理：对于耗时操作采用异步方式

filter {
  ruby {
    init => '
      # 初始化代码，只执行一次
      @log_pattern = ~/\[(?<timestamp>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] \[(?<level>\w+)\] \[(?<logger>[^\]]+)\] (?<message>.+)/
      @level_map = ["DEBUG":1, "INFO":2, "WARN":3, "ERROR":4, "FATAL":5]
    '
    code => '
      # 处理代码，每条日志执行一次
      def message = event.get("message")
      def matcher = @log_pattern.matcher(message)
      
      if (matcher.matches()) {
        event.set("timestamp", matcher.group("timestamp"))
        event.set("level", matcher.group("level"))
        event.set("logger", matcher.group("logger"))
        event.set("message", matcher.group("message"))
        
        // 使用预定义的level_map
        event.set("level_num", @level_map.get(matcher.group("level").toUpperCase(), 0))
      }
    '
  }
}

4. Elasticsearch与Groovy数据交互

4.1 Elasticsearch Java客户端

Elasticsearch提供了Java客户端，可直接在Groovy中使用，实现与Elasticsearch的交互。

添加依赖

@Grab('org.elasticsearch.client:elasticsearch-rest-high-level-client:8.6.0')
@Grab('org.apache.httpcomponents.client5:httpclient5:5.2.1')

基本Elasticsearch操作

import org.elasticsearch.client.RestHighLevelClient
import org.elasticsearch.client.indices.CreateIndexRequest
import org.elasticsearch.client.RequestOptions
import org.elasticsearch.common.xcontent.XContentType

// 创建Elasticsearch客户端
def client = new RestHighLevelClient(
    org.elasticsearch.client.RestClient.builder(
        new org.apache.http.HttpHost("localhost", 9200, "http")
    )
)

try {
    // 创建索引
    def createIndexRequest = new CreateIndexRequest("groovy-logs")
    def indexSettings = '''
    {
      "settings": {
        "number_of_shards": 3,
        "number_of_replicas": 1
      },
      "mappings": {
        "properties": {
          "timestamp": { "type": "date" },
          "level": { "type": "keyword" },
          "message": { "type": "text" },
          "logger": { "type": "keyword" }
        }
      }
    }
    '''
    createIndexRequest.source(indexSettings, XContentType.JSON)
    def createIndexResponse = client.indices().create(createIndexRequest, RequestOptions.DEFAULT)
    println("索引创建结果: ${createIndexResponse.isAcknowledged()}")

    // 索引文档
    def indexRequest = new org.elasticsearch.action.index.IndexRequest("groovy-logs")
    indexRequest.id("1")
    def jsonDocument = '''
    {
      "timestamp": "2023-05-15T10:30:00Z",
      "level": "INFO",
      "message": "Groovy应用启动成功",
      "logger": "com.example.Application"
    }
    '''
    indexRequest.source(jsonDocument, XContentType.JSON)
    def indexResponse = client.index(indexRequest, RequestOptions.DEFAULT)
    println("文档索引结果: ${indexResponse.getResult()}")

    // 搜索文档
    def searchRequest = new org.elasticsearch.action.search.SearchRequest("groovy-logs")
    def searchSourceBuilder = new org.elasticsearch.search.SearchSourceBuilder()
    searchSourceBuilder.query(org.elasticsearch.index.query.QueryBuilders.matchQuery("message", "启动成功"))
    searchRequest.source(searchSourceBuilder)
    def searchResponse = client.search(searchRequest, RequestOptions.DEFAULT)
    
    println("搜索结果总数: ${searchResponse.getHits().getTotalHits().value}")
    searchResponse.getHits().each { hit ->
        println("文档ID: ${hit.id}, 得分: ${hit.score}, 内容: ${hit.sourceAsString}")
    }
} finally {
    // 关闭客户端
    client.close()
}

4.2 Groovy脚本在Elasticsearch中的应用

Elasticsearch支持使用Groovy（通过Painless脚本语言，它是Groovy的安全子集）编写脚本，用于文档评分、更新和聚合等操作。

使用Groovy脚本进行文档更新

import org.elasticsearch.action.update.UpdateRequest

def updateRequest = new UpdateRequest("groovy-logs", "1")
def script = new org.elasticsearch.script.Script(
    org.elasticsearch.script.ScriptType.INLINE,
    "painless",
    "ctx._source.processed = true; ctx._source.processed_by = 'groovy_script'; ctx._source.processing_time = params.processingTime",
    [processingTime: 42]
)
updateRequest.script(script)
def updateResponse = client.update(updateRequest, RequestOptions.DEFAULT)
println("文档更新结果: ${updateResponse.result}")

使用Groovy脚本进行搜索评分

import org.elasticsearch.index.query.functionscore.ScriptScoreFunctionBuilder
import org.elasticsearch.script.Script

def functionScoreQueryBuilder = org.elasticsearch.index.query.QueryBuilders.functionScoreQuery(
    org.elasticsearch.index.query.QueryBuilders.matchQuery("message", "错误"),
    new ScriptScoreFunctionBuilder(
        new Script(
            "painless",
            // 根据日志级别和时间计算分数
            "def score = 1.0; " +
            "if (ctx._source.level == 'ERROR') score *= 2.0; " +
            "if (ctx._source.timestamp > params.recentTime) score *= 1.5; " +
            "return score;",
            [recentTime: "2023-05-15T00:00:00Z"]
        )
    )
)

def searchSourceBuilder = new org.elasticsearch.search.SearchSourceBuilder()
searchSourceBuilder.query(functionScoreQueryBuilder)
def searchRequest = new org.elasticsearch.action.search.SearchRequest("groovy-logs")
searchRequest.source(searchSourceBuilder)
def searchResponse = client.search(searchRequest, RequestOptions.DEFAULT)

5. Kibana日志可视化与分析

5.1 Kibana基本配置

创建索引模式

打开Kibana界面，导航至"Management" > "Stack Management" > "Kibana" > "Index Patterns"
点击"Create index pattern"
输入索引模式名称（如"groovy-logs*"）
选择时间字段（如"@timestamp"）
点击"Create index pattern"完成创建

基本日志探索

导航至"Discover"页面
选择刚创建的索引模式
使用时间选择器设置时间范围
浏览日志数据，使用搜索框进行简单查询

5.2 使用Groovy生成Kibana可视化数据

通过Groovy脚本，我们可以预处理数据，使其更适合Kibana可视化：

filter {
  ruby {
    code => '
      // 提取HTTP状态码并添加范围字段
      def statusCode = event.get("http_status")
      if (statusCode) {
        event.set("http_status_range", "${(statusCode as Integer / 100) * 100}-${(statusCode as Integer / 100 + 1) * 100}")
        
        // 添加状态码类别
        def statusCategory = "Other"
        if (statusCode >= 200 && statusCode < 300) {
          statusCategory = "Success"
        } else if (statusCode >= 300 && statusCode < 400) {
          statusCategory = "Redirect"
        } else if (statusCode >= 400 && statusCode < 500) {
          statusCategory = "Client Error"
        } else if (statusCode >= 500 && statusCode < 600) {
          statusCategory = "Server Error"
        }
        event.set("http_status_category", statusCategory)
      }
      
      // 处理响应时间，添加区间字段
      def responseTime = event.get("response_time")
      if (responseTime) {
        def responseTimeRange = "0-100ms"
        if (responseTime > 100 && responseTime <= 500) responseTimeRange = "100-500ms"
        else if (responseTime > 500 && responseTime <= 1000) responseTimeRange = "500-1000ms"
        else if (responseTime > 1000) responseTimeRange = "1000ms+"
        event.set("response_time_range", responseTimeRange)
      }
    '
  }
}

5.3 创建自定义Kibana仪表盘

5.3.1 常用可视化类型

柱状图(Vertical Bar Chart)：比较不同类别的数据
折线图(Line Chart)：展示趋势随时间变化
饼图(Pie Chart)：显示各部分占比
数据表格(Data Table)：详细展示日志数据
指标卡(Metric)：突出显示关键指标

5.3.2 实战：创建应用性能监控仪表盘

以下是一个使用Groovy预处理数据后，在Kibana中创建的应用性能监控仪表盘示例：

mermaid

6. 完整ELK + Groovy日志分析系统实战

6.1 系统架构设计

mermaid

6.2 环境搭建与配置

6.2.1 Filebeat配置（收集日志）

# filebeat.yml
filebeat.inputs:
- type: log
  enabled: true
  paths:
    - /var/log/application/*.log
  tags: ["application"]
  
- type: log
  enabled: true
  paths:
    - /var/log/database/*.log
  tags: ["database"]
  
- type: log
  enabled: true
  paths:
    - /var/log/nginx/*.log
  tags: ["webserver"]

output.logstash:
  hosts: ["localhost:5044"]

6.2.2 Logstash配置（处理日志）

# logstash.conf
input {
  beats {
    port => 5044
  }
}

filter {
  # Groovy日志处理逻辑
  ruby {
    code => '
      # 这里放置前面章节讨论的Groovy处理代码
      # 包括日志结构化、清洗、转换等
    '
  }
  
  # 日期解析
  date {
    match => ["timestamp", "yyyy-MM-dd HH:mm:ss", "ISO8601"]
    target => "@timestamp"
  }
  
  # 地理位置解析（如果日志包含IP地址）
  if [client_ip] {
    geoip {
      source => "client_ip"
    }
  }
}

output {
  elasticsearch {
    hosts => ["localhost:9200"]
    index => "groovy-logs-%{+YYYY.MM.dd}"
    document_type => "_doc"
  }
  
  # 调试输出
  stdout {
    codec => rubydebug
  }
}

6.3 关键Groovy脚本实现

6.3.1 日志分类与结构化处理

ruby {
  code => '
    # 根据标签识别日志类型
    def tags = event.get("tags")
    if (tags.contains("application")) {
      processApplicationLog(event)
    } else if (tags.contains("database")) {
      processDatabaseLog(event)
    } else if (tags.contains("webserver")) {
      processWebServerLog(event)
    }
    
    // 应用日志处理函数
    def processApplicationLog(event) {
      event.set("log_type", "application")
      
      // 解析应用日志格式
      def message = event.get("message")
      def pattern = ~/\[(?<timestamp>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] \[(?<level>\w+)\] \[(?<logger>[^\]]+)\] \[(?<userId>[^\]]*)\] (?<message>.+)/
      def matcher = pattern.matcher(message)
      
      if (matcher.matches()) {
        event.set("timestamp", matcher.group("timestamp"))
        event.set("level", matcher.group("level"))
        event.set("logger", matcher.group("logger"))
        event.set("user_id", matcher.group("userId"))
        event.set("message", matcher.group("message"))
        
        // 提取异常信息
        if (matcher.group("level") == "ERROR" && message.contains("Exception")) {
          event.set("has_exception", true)
          def exceptionType = (message =~ /(\w+Exception)/)[0][1]
          event.set("exception_type", exceptionType)
        }
      }
    }
    
    // 数据库日志处理函数
    def processDatabaseLog(event) {
      event.set("log_type", "database")
      
      // 解析SQL执行日志
      def message = event.get("message")
      if (message =~ /Query executed/) {
        def queryTime = (message =~ /in (\d+) ms/)[0][1]
        event.set("query_time_ms", queryTime.toInteger())
        
        def queryType = (message =~ /(SELECT|INSERT|UPDATE|DELETE|ALTER)/) ? 
            (message =~ /(SELECT|INSERT|UPDATE|DELETE|ALTER)/)[0][1] : "OTHER"
        event.set("query_type", queryType)
      }
    }
    
    // Web服务器日志处理函数
    def processWebServerLog(event) {
      event.set("log_type", "webserver")
      
      // 解析Nginx访问日志
      def message = event.get("message")
      def pattern = ~/(?<client_ip>\d+\.\d+\.\d+\.\d+) - (?<user>[^ ]+) \[(?<timestamp>[^\]]+)\] "(?<method>\w+) (?<path>[^ ]+) (?<protocol>[^"]+)" (?<status>\d+) (?<size>\d+) "(?<referer>[^"]*)" "(?<user_agent>[^"]*)" "(?<forwarded>[^"]*)" (?<request_time>[^ ]+)/
      def matcher = pattern.matcher(message)
      
      if (matcher.matches()) {
        event.set("client_ip", matcher.group("client_ip"))
        event.set("http_method", matcher.group("method"))
        event.set("http_path", matcher.group("path"))
        event.set("http_status", matcher.group("status").toInteger())
        event.set("response_size", matcher.group("size").toInteger())
        event.set("user_agent", matcher.group("user_agent"))
        event.set("request_time", matcher.group("request_time").toFloat())
        
        // 提取用户代理信息
        def userAgent = matcher.group("user_agent")
        if (userAgent =~ /Mobile|Android|iPhone|iPad/) {
          event.set("client_type", "mobile")
        } else if (userAgent =~ /bot|crawl|spider/i) {
          event.set("client_type", "bot")
        } else {
          event.set("client_type", "desktop")
        }
      }
    }
  }
}

6.4 系统测试与验证

6.4.1 测试数据生成

// generate_test_logs.groovy
import java.util.logging.Logger

def logger = Logger.getLogger("TestLogGenerator")

// 生成测试应用日志
1000.times { i ->
    def level = ["INFO", "DEBUG", "WARN", "ERROR"][new Random().nextInt(4)]
    def loggerName = ["com.example.service.UserService", "com.example.service.OrderService", 
                      "com.example.controller.HomeController", "com.example.repository.DBRepository"][new Random().nextInt(4)]
    def userId = i % 10 == 0 ? "anonymous" : "user${i % 50}"
    def message = "这是一条${level}级别的测试日志，用户ID: ${userId}，日志序号: ${i}"
    
    if (level == "ERROR" && i % 20 == 0) {
        message += "，发生异常: NullPointerException: 空指针异常示例"
    }
    
    println("[2023-05-${String.format('%02d', 15 + (i % 10))} ${String.format('%02d', i % 24)}:${String.format('%02d', i % 60)}:${String.format('%02d', i % 60)}] [${level}] [${loggerName}] [${userId}] ${message}")
}

// 生成测试数据库日志
500.times { i ->
    def queryType = ["SELECT", "INSERT", "UPDATE", "DELETE", "ALTER"][new Random().nextInt(5)]
    def table = ["users", "orders", "products", "categories", "logs"][new Random().nextInt(5)]
    def queryTime = new Random().nextInt(500) + 10
    
    println("2023-05-${String.format('%02d', 15 + (i % 10))} ${String.format('%02d', i % 24)}:${String.format('%02d', i % 60)}:${String.format('%02d', i % 60)} - Query executed: ${queryType} * FROM ${table} WHERE id = ${i}; in ${queryTime} ms")
}

// 生成测试Web服务器日志
2000.times { i ->
    def clientIp = "${new Random().nextInt(256)}.${new Random().nextInt(256)}.${new Random().nextInt(256)}.${new Random().nextInt(256)}"
    def method = ["GET", "POST", "PUT", "DELETE", "HEAD"][new Random().nextInt(5)]
    def path = ["/", "/home", "/products", "/product/${i % 100}", "/api/users", "/api/orders", "/login", "/error"][new Random().nextInt(8)]
    def status = [200, 200, 200, 200, 200, 302, 404, 500, 403][new Random().nextInt(9)]
    def size = new Random().nextInt(10000) + 100
    def referer = i % 5 == 0 ? "-" : ["https://example.com", "https://google.com", "https://bing.com", "https://baidu.com"][new Random().nextInt(4)]
    def userAgent = ["Mozilla/5.0 (Windows NT 10.0; Win64; x64) Chrome/99.0.1234.56",
                     "Mozilla/5.0 (Macintosh; Intel Mac OS X 12_3) Safari/605.1.15",
                     "Mozilla/5.0 (Linux; Android 12; SM-G998B) Chrome/98.0.4758.101 Mobile Safari/537.36",
                     "Mozilla/5.0 (iPhone; CPU iPhone OS 15_4 like Mac OS X) Mobile/15E148 Safari/604.1"][new Random().nextInt(4)]
    def requestTime = new Random().nextFloat() * 2.0
    
    println("${clientIp} - - [${String.format('%02d', 15 + (i % 10))}/May/2023:${String.format('%02d', i % 24)}:${String.format('%02d', i % 60)}:${String.format('%02d', i % 60)} +0800] \"${method} ${path} HTTP/1.1\" ${status} ${size} \"${referer}\" \"${userAgent}\" \"-\" ${requestTime}")
}

6.4.2 执行测试

# 运行测试日志生成脚本
groovy generate_test_logs.groovy > /var/log/application/test.log

# 检查Filebeat是否正在收集日志
tail -f /var/log/filebeat/filebeat

# 检查Logstash处理情况
tail -f /var/log/logstash/logstash-plain.log

# 在Kibana中查看结果
# 访问 http://localhost:5601

7. 高级优化与最佳实践

7.1 性能优化策略

7.1.1 Logstash性能调优

增加JVM堆内存：在logstash/jvm.options中设置-Xms4g -Xmx4g
调整管道工作线程：在logstash.yml中设置pipeline.workers: 4（通常设置为CPU核心数）
批量处理：在Elasticsearch输出中设置batch_size: 500
使用持久队列：在logstash.yml中设置queue.type: persisted

7.1.2 Groovy脚本优化

ruby {
  init => '
    # 在init块中预编译正则表达式和初始化常用对象
    @appLogPattern = ~/\[(?<timestamp>\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2})\] \[(?<level>\w+)\] \[(?<logger>[^\]]+)\] \[(?<userId>[^\]]*)\] (?<message>.+)/
    @dbLogPattern = ~/Query executed: (?<queryType>\w+) .+ in (?<queryTime>\d+) ms/
    @webLogPattern = ~/(?<client_ip>\d+\.\d+\.\d+\.\d+) .+ "(?<method>\w+) (?<path>[^ ]+) (?<protocol>[^"]+)" (?<status>\d+) (?<size>\d+)/
    @levelMap = ["INFO":1, "DEBUG":2, "WARN":3, "ERROR":4]
  '
  code => '
    # 在code块中只处理事件，使用预编译的模式
    def tags = event.get("tags")
    if (tags.contains("application")) {
      def matcher = @appLogPattern.matcher(event.get("message"))
      if (matcher.matches()) {
        // 设置字段...
      }
    } else if (tags.contains("database")) {
      // 使用@dbLogPattern...
    } else if (tags.contains("webserver")) {
      // 使用@webLogPattern...
    }
  '
}

7.2 安全最佳实践

限制Elasticsearch访问：配置网络访问控制，只允许Logstash和Kibana访问
启用认证：为Elasticsearch和Kibana配置用户名密码认证
加密传输：启用TLS/SSL加密Elasticsearch、Logstash和Kibana之间的通信
数据脱敏：使用Groovy脚本移除或掩盖日志中的敏感信息

ruby {
  code => '
    // 敏感数据脱敏处理
    def message = event.get("message")
    if (message) {
      // 掩盖信用卡号
      message = message.replaceAll(/\b(?:\d{4}[-\s]?){3}\d{4}\b/, "XXXX-XXXX-XXXX-####")
      // 掩盖身份证号
      message = message.replaceAll(/\b\d{17}[\dXx]|\d{15}\b/, "*****************")
      // 掩盖手机号
      message = message.replaceAll(/\b1[3-9]\d{9}\b/, "1XXXXXXXXX")
      event.set("message", message)
    }
    
    // 移除敏感字段
    event.remove("password")
    event.remove("credit_card")
    event.remove("ssn")
  '
}

7.3 高可用架构设计

mermaid

8. 总结与展望

8.1 本文要点回顾

Groovy语言在日志处理中的优势：简洁语法、强大的字符串处理能力、与Java生态系统的兼容性
ELK Stack架构：Elasticsearch存储和索引、Logstash收集和处理、Kibana可视化
Groovy与Logstash集成：使用ruby过滤器运行Groovy代码，实现复杂日志处理
完整日志分析系统构建：从数据源、收集、处理、存储到可视化的全流程实现
高级优化策略：性能调优、安全最佳实践、高可用架构设计

8.2 未来发展趋势

实时日志分析：结合流处理技术（如Kafka Streams、Flink）实现实时日志分析
机器学习集成：使用Groovy调用机器学习模型，实现日志异常检测和预测
云原生部署：将ELK + Groovy日志分析系统容器化，部署到Kubernetes集群
增强的可视化：结合3D可视化和VR技术，提供更直观的日志数据展示

8.3 进阶学习资源

Groovy官方文档：https://groovy-lang.org/documentation.html
Elasticsearch官方指南：https://www.elastic.co/guide/en/elasticsearch/reference/current/index.html
Logstash过滤器开发指南：https://www.elastic.co/guide/en/logstash/current/filter-plugins.html
Kibana可视化实战：https://www.elastic.co/guide/en/kibana/current/visualize.html
Groovy数据分析 cookbook：探索Groovy在大数据处理中的更多应用

通过本文介绍的ELK Stack与Groovy结合的日志分析方案，您可以构建一个功能强大、灵活高效的日志分析系统，为软件开发和运维提供有力支持。无论是问题排查、性能优化还是业务分析，这套系统都能发挥重要作用。随着技术的不断发展，日志分析将在DevOps、AIOps等领域发挥越来越重要的作用，而Groovy与ELK Stack的组合将继续是这一领域的有力工具。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考