Doris 数据仓库例子

原创

于 2025-09-05 10:39:14 发布 · 1.4k 阅读

CC 4.0 BY-SA版权

文章标签：

基于 Apache Doris 构建数据仓库的方案和具体例子。Doris 以其高性能、易用性和实时能力，成为构建现代化数据仓库（特别是 OLAP 场景）的优秀选择。

Doris（原名 Palo）是一个基于 MPP 架构的高性能、实分析型数据库，非常适合作为数据仓库（DW）和即席查询（Ad-hoc Query）的解决方案。

核心优势：

极高性能：
- 列式存储、向量化执行引擎、预聚合（物化视图）。
- 支持高并发点查询，响应延迟可低至毫秒级。
简单易用：
- 兼容 MySQL 协议，使用标准 SQL，学习和使用成本极低。
- 无需依赖 Hadoop 生态（HDFS/Hive/Spark）的繁重组件，架构简单，运维方便。
实时分析：
- 支持实时数据导入（如通过 Routine Load 消费 Kafka 数据），从数据产生到可查询可达秒级延迟。
统一化：
- 一个系统同时支持离线批量数据和实时流式数据的导入与分析，避免了 Lambda 架构的复杂性。
联邦查询：
- 支持通过 ODBC/MySQL 外表功能查询其他数据源（如 MySQL, PostgreSQL, Elasticsearch, Hive 等），方便地整合现有数据。

整个数据流向可以清晰地分为四个层级，数据从左向右流动：

数据源层 (Data Sources) -> 数据处理与导入层 (Data Ingestion) -> 数据存储与建模层 (Data Storage & Modeling) -> 数据应用层 (Data Application)

1. 数据源层 (Data Sources)

业务数据库 (MySQL/PostgreSQL等): 通过 Change Data Capture (CDC) 工具（如 Canal, Debezium）实时捕获数据变更，并将变更日志推送到消息队列。
应用日志/点击流: 通过日志收集工具（如 Logstash, Flume）或实时计算框架（如 Flink）进行初步处理后，写入消息队列。
离线数据文件: 来自其他数据处理系统（如 Spark, Hive 作业）的批量数据文件，通常以列式格式（如 Parquet, ORC）存放在分布式文件系统（如 HDFS）或对象存储（如 S3）上。

2. 数据处理与导入层 (Data Ingestion)
这是 Doris 与数据源对接的关键环节，它提供了多种灵活的导入方式：

对于实时数据流 (Kafka): 使用 Routine Load 功能。Doris 可以作为一个消费者，持续地从 Kafka 主题中拉取数据，并近乎实时地（秒级延迟）导入到内部表中。
对于批量数据文件 (HDFS/S3): 使用 Broker Load 功能。Doris 通过部署的 Broker 节点，并行地读取远端存储上的大量数据文件，并高效地导入到内部表中。也可以使用 Spark-Doris-Connector 从 Spark 直接写入。

3. 数据存储与建模层 (Data Storage & Modeling in Doris)
这是 Doris 的核心，数据在这里被有序地组织和管理。