Apache Druid Tranquility服务配置解析与最佳实践-优快云博客

Apache Druid Tranquility服务配置解析与最佳实践

druid Apache Druid: a high performance real-time analytics database. 项目地址: https://gitcode.com/gh_mirrors/druid7/druid

概述

Apache Druid是一个高性能的实时分析数据库，而Tranquility是Druid生态系统中用于实时数据摄入的重要组件。本文将深入解析Tranquility服务配置文件(server.json)的技术细节，帮助开发者理解如何配置实时数据摄入管道。

配置文件结构解析

Tranquility的server.json配置文件主要包含两大核心部分：

数据源配置(dataSources)：定义如何处理和摄入数据
服务属性配置(properties)：设置Tranquility服务本身的运行参数

数据源配置详解

基础数据模式(dataSchema)

"dataSchema": {
  "dataSource": "metrics",
  "parser": {...},
  "granularitySpec": {...},
  "metricsSpec": [...]
}

dataSource：定义数据源名称，本例为"metrics"
parser：配置如何解析原始数据
granularitySpec：设置时间粒度相关参数
metricsSpec：定义聚合指标的计算方式

数据解析器配置(parser)

"parser": {
  "type": "string",
  "parseSpec": {
    "timestampSpec": {
      "column": "timestamp",
      "format": "auto"
    },
    "dimensionsSpec": {
      "dimensions": [],
      "dimensionExclusions": ["timestamp", "value"]
    },
    "format": "json"
  }
}

支持JSON格式数据解析
时间戳字段自动检测(auto)
明确排除了timestamp和value字段不作为维度

时间粒度配置(granularitySpec)

"granularitySpec": {
  "type": "uniform",
  "segmentGranularity": "hour",
  "queryGranularity": "none"
}

segmentGranularity：设置为"hour"表示按小时分段存储
queryGranularity："none"表示查询时不进行额外的时间粒度聚合

指标定义(metricsSpec)

"metricsSpec": [
  {
    "type": "count",
    "name": "count"
  },
  {
    "name": "value_sum",
    "type": "doubleSum",
    "fieldName": "value"
  },
  {
    "fieldName": "value",
    "name": "value_min",
    "type": "doubleMin"
  },
  {
    "type": "doubleMax",
    "name": "value_max",
    "fieldName": "value"
  }
]

定义了四种聚合指标：

计数(count)
求和(doubleSum)
最小值(doubleMin)
最大值(doubleMax)

IO配置(ioConfig)

"ioConfig": {
  "type": "realtime"
}

明确指定为实时数据处理模式。

调优配置(tuningConfig)

"tuningConfig": {
  "type": "realtime",
  "maxRowsInMemory": "100000",
  "intermediatePersistPeriod": "PT10M",
  "windowPeriod": "PT10M"
}

关键参数：

maxRowsInMemory：内存中最大行数(10万)
intermediatePersistPeriod：中间持久化周期(10分钟)
windowPeriod：时间窗口大小(10分钟)

服务属性配置

"properties": {
  "zookeeper.connect": "localhost",
  "druid.discovery.curator.path": "/druid/discovery",
  "druid.selectors.indexing.serviceName": "druid/overlord",
  "http.port": "8200",
  "http.threads": "9"
}