Apache Druid 实战教程：如何批量加载自定义数据集-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00906/article/details/148392335

Apache Druid 实战教程：如何批量加载自定义数据集

druid Apache Druid: a high performance real-time analytics database. 项目地址: https://gitcode.com/gh_mirrors/druid7/druid

概述

本文将详细介绍如何在 Apache Druid 中加载自定义的批量数据。Druid 是一个高性能的实时分析数据库，特别适合处理时序数据和事件流数据。通过本教程，您将学会如何准备数据、编写摄入规范（ingestion spec）以及执行数据加载过程。

准备工作

在开始之前，请确保您已经：

完成了 Apache Druid 的本地安装和启动
熟悉 Druid 的基本概念和架构
准备好要加载的数据文件（支持 JSON、CSV、TSV 格式）

数据准备

Druid 要求数据文件必须是扁平化的结构，不支持嵌套的 JSON 对象。以下是一个符合要求的示例数据文件（pageviews.json）：

{"time": "2015-09-01T00:00:00Z", "url": "/foo/bar", "user": "alice", "latencyMs": 32}
{"time": "2015-09-01T01:00:00Z", "url": "/", "user": "bob", "latencyMs": 11}
{"time": "2015-09-01T01:30:00Z", "url": "/foo/bar", "user": "bob", "latencyMs": 45}

注意：文件末尾不应有空行。

编写摄入规范

摄入规范是 Druid 加载数据的核心配置文件，它定义了数据源的结构和处理方式。以下是关键配置项：

数据源名称：在 dataSource 字段中指定
数据文件路径：在 inputSpec 的 paths 中指定
时间戳字段：在 timestampSpec 中配置
维度字段：在 dimensionsSpec 中定义
指标字段：在 metricsSpec 中定义
时间范围：在 granularitySpec 的 intervals 中设置

示例配置

基于上述示例数据，我们可以创建如下摄入规范：

{
  "type": "index",
  "spec": {
    "dataSchema": {
      "dataSource": "pageviews",
      "timestampSpec": {
        "format": "auto",
        "column": "time"
      },
      "dimensionsSpec": {
        "dimensions": ["url", "user"]
      },
      "metricsSpec": [
        {"name": "views", "type": "count"},
        {"name": "latencyMs", "type": "doubleSum", "fieldName": "latencyMs"}
      ],
      "granularitySpec": {
        "type": "uniform",
        "segmentGranularity": "day",
        "queryGranularity": "none",
        "intervals": ["2015-09-01/2015-09-02"]
      }
    },
    "ioConfig": {
      "type": "index",
      "inputSpec": {
        "type": "static",
        "paths": "pageviews.json"
      }
    }
  }
}

配置详解

timestampSpec：定义了如何解析时间戳字段
- format：设置为"auto"可自动检测常见时间格式
- column：指定包含时间戳的字段名
dimensionsSpec：定义了维度字段
- 维度通常是用于分组和过滤的字段
- 示例中选择了"url"和"user"作为维度
metricsSpec：定义了指标字段
- count类型会自动计算行数
- doubleSum类型会对指定字段求和
granularitySpec：定义了时间粒度
- segmentGranularity：数据分段的时间粒度
- intervals：指定要加载的时间范围

执行数据加载

准备好摄入规范后，可以通过以下命令提交任务：

curl -X 'POST' -H 'Content-Type:application/json' -d @my-index-task.json localhost:8090/druid/indexer/v1/task

任务监控

通过 Overlord 控制台（默认端口8090）可以查看任务状态
任务日志可以帮助排查问题
数据完全可用后，可以在 Coordinator 控制台（默认端口8081）查看

数据查询

数据加载完成后，您可以通过以下方式查询：

使用 Druid SQL 查询
使用原生查询（如 Timeseries、TopN、GroupBy等）
通过 Druid 控制台的可视化界面

最佳实践

数据预处理：确保数据格式正确，特别是时间戳字段
维度选择：合理选择维度字段，避免过多维度影响性能
指标设计：预聚合常用指标可以提高查询效率
时间范围：精确设置时间范围可以减少不必要的数据扫描
测试验证：先用小数据集测试，确认配置正确后再处理全量数据

常见问题

时间戳解析失败：检查时间格式是否正确，必要时指定明确的格式
维度值过长：过长的维度值会影响性能，考虑截断或哈希处理
内存不足：大数据集可能需要调整 JVM 内存配置
文件路径错误：确保文件路径正确，权限设置适当

总结

通过本教程，您已经学会了如何在 Apache Druid 中加载自定义的批量数据。掌握这些技能后，您可以将各种数据源接入 Druid，构建强大的实时分析系统。后续可以进一步探索实时数据摄入、复杂查询优化等高级功能。

druid Apache Druid: a high performance real-time analytics database. 项目地址: https://gitcode.com/gh_mirrors/druid7/druid

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考