【ClickHouse + MinIO】构建一个完整的本地数据湖

ClickHouse + MinIO 构建本地数据湖

最新推荐文章于 2025-10-11 10:14:07 发布

原创最新推荐文章于 2025-10-11 10:14:07 发布 · 1.2k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#clickhouse #MinIO #学习

OLAP 专栏收录该内容

34 篇文章

订阅专栏

将 ClickHouse 与 MinIO 结合使用，是构建 本地化、低成本、高性能数据湖（Data Lake） 的理想方案。MinIO 作为兼容 AWS S3 的对象存储，提供高可用、可扩展的廉价存储层；而 ClickHouse 作为强大的 OLAP 引擎，提供高性能分析能力。两者结合，即可实现 “湖仓一体（Lakehouse）” 架构。

本篇将深入详解如何使用 ClickHouse + MinIO 构建一个完整的本地数据湖，涵盖部署、集成、读写优化与最佳实践。

🎯 一、为什么选择 ClickHouse + MinIO？

需求	ClickHouse + MinIO 方案
低成本存储海量原始数据	MinIO 提供廉价对象存储
高性能分析	ClickHouse 提供秒级查询
兼容 S3 生态	MinIO 兼容 S3 API，工具丰富
本地部署	完全私有化，无需云依赖
湖仓一体	一份数据，既可归档又可分析

✅ 适用场景：

日志归档与分析
用户行为数据湖
监控指标长期存储
数据备份与恢复

🏗️ 二、架构设计

[数据源] → [Kafka / File] → [ClickHouse Local Table]
                                 │
                                 ↓ (TTL / MV)
                         [S3 (MinIO)] ← 存储冷数据
                                 │
                                 ↓
                  [ClickHouse 查询] → 直接读取 MinIO 上的 Parquet

✅ 核心流程：

热数据存 ClickHouse 本地（SSD）
冷数据自动归档到 MinIO
查询时可直接读取 MinIO 上的原始数据

🔧 三、部署 MinIO（单机或集群）

1. 安装 MinIO（Docker 方式，推荐）

# 创建数据目录
mkdir -p /data/minio

# 启动 MinIO 服务
docker run -d \
  -p 9000:9000 \
  -p 9001:9001 \
  -v /data/minio:/data \
  -e "MINIO_ROOT_USER=admin" \
  -e "MINIO_ROOT_PASSWORD=minioadmin" \
  quay.io/minio/minio server /data --console-address ":9001"

🔗 访问：

S3 API: http://your-host:9000
Web 控制台: http://your-host:9001（用户：admin，密码：minioadmin）

2. 创建 Bucket

# 安装 mc（MinIO Client）
wget https://dl.min.io/client/mc/release/linux-amd64/mc
chmod +x mc
mv mc /usr/local/bin/

# 配置别名
mc alias set minio http://your-host:9000 admin minioadmin

# 创建 bucket
mc mb minio/clickhouse-archive

🚀 四、ClickHouse 集成 MinIO

1. 配置 S3 存储策略（可选，用于自动归档）

在 config.xml 中添加：

<storage_configuration>
    <disks>
        <minio>
            <type>s3</type>
            <endpoint>http://your-host:9000/clickhouse-archive/</endpoint>
            <access_key_id>admin</access_key_id>
            <secret_access_key>minioadmin</secret_access_key>
            <region>us-east-1</region>
            <send_content_md5>false</send_content_md5>
        </minio>
    </disks>

    <policies>
        <s3_tier>
            <volumes>
                <default><disk>default</disk></default>
                <archive><disk>minio</disk></archive>
            </volumes>
        </s3_tier>
    </policies>
</storage_configuration>

2. 创建表并配置 TTL 到 MinIO

CREATE TABLE user_log_lake (
    user_id UInt32,
    event_date Date,
    event_type String,
    page_url String,
    duration UInt32,
    event_time DateTime
) ENGINE = MergeTree()
PARTITION BY toYYYYMM(event_date)
ORDER BY (event_date, user_id)
TTL 
  event_date + INTERVAL 7 DAY TO VOLUME 'archive',  -- 7天后迁移到 MinIO
  event_date + INTERVAL 365 DAY DELETE              -- 1年后删除
SETTINGS 
    storage_policy = 's3_tier';

✅ 效果：数据自动从本地迁移到 MinIO。

📥 五、直接写入 MinIO（通过 S3 表函数）

1. 使用物化视图归档

-- 假设有一个本地事实表
CREATE TABLE user_log_local (...);

-- 创建物化视图，自动写入 MinIO
CREATE MATERIALIZED VIEW mv_user_log_to_minio
TO default.none
AS 
INSERT INTO FUNCTION 
s3(
    'http://your-host:9000/clickhouse-archive/user_log/{_partition_id}.parquet',
    'admin',
    'minioadmin',
    'Parquet'
)
SELECT 
    user_id, event_date, event_type, page_url, duration, event_time
FROM user_log_local;

✅ 支持格式：Parquet, ORC, CSV, JSONEachRow, Native

📤 六、从 MinIO 读取数据（联邦查询）

1. 直接查询 S3 上的 Parquet 文件

SELECT 
    event_date,
    event_type,
    COUNT(*) AS cnt
FROM s3(
    'http://your-host:9000/clickhouse-archive/user_log/2024*.parquet',
    'admin',
    'minioadmin',
    'Parquet'
)
WHERE event_date = '2024-04-01'
GROUP BY event_date, event_type;

2. 创建“外部表”式视图

CREATE VIEW user_log_archive AS
SELECT * FROM s3(
    'http://your-host:9000/clickhouse-archive/user_log/*.parquet',
    'admin',
    'minioadmin',
    'Parquet'
);

然后像普通表一样查询：

SELECT COUNT(*) FROM user_log_archive WHERE event_date >= '2024-01-01';

🔄 七、冷热数据联合分析

场景：查询最近 30 天热数据 + 历史归档数据

SELECT 
    event_date,
    COUNT(*) AS daily_events
FROM (
    -- 热数据（本地）
    SELECT event_date FROM user_log_local WHERE event_date >= '2024-04-01'
    UNION ALL
    -- 冷数据（MinIO）
    SELECT event_date FROM user_log_archive WHERE event_date < '2024-04-01'
)
GROUP BY event_date
ORDER BY event_date;

✅ 实现“一份语义，多层存储”的统一分析。

⚙️ 八、性能优化建议

优化项	建议
文件格式	优先使用 `Parquet`，列式压缩率高
文件大小	每个文件 64MB~1GB，避免小文件
分区路径	按 `{_partition_id}` 或 `{event_date}` 分区
并发读取	ClickHouse 自动并行读取多个文件
MinIO 性能	使用 SSD 存储，多节点部署提升吞吐
网络	ClickHouse 与 MinIO 部署在同一内网

🔐 九、安全配置（生产建议）

项目	建议
MinIO 认证	使用 IAM 用户，避免 root
HTTPS	配置 TLS 证书
网络隔离	MinIO 仅限内网访问
ClickHouse 凭据	使用 `named_collections` 避免硬编码

使用 named_collections（v22+）

<named_collections>
    <minio_store>
        <endpoint>http://minio:9000/clickhouse-archive/</endpoint>
        <access_key_id>admin</access_key_id>
        <secret_access_key>minioadmin</secret_access_key>
    </minio_store>
</named_collections>

使用：

s3(named_collection='minio_store', filename='data.parquet', format='Parquet')

📊 十、监控与运维

监控项	方法
MinIO 存储用量	`mc du minio/clickhouse-archive`
ClickHouse 归档状态	`system.parts` 中 `volume_name = 'minio'`
查询性能	`system.query_log` 分析 S3 查询耗时
网络带宽	监控 ClickHouse 到 MinIO 的流量

🎯 十一、总结：ClickHouse + MinIO 的核心价值

能力	说明
💾 低成本存储	MinIO 提供接近磁盘成本的对象存储
⚡ 高性能分析	ClickHouse 直接读取 Parquet，无需导入
🌐 S3 兼容生态	可对接 Trino、Spark、Airflow 等
🧩 湖仓一体	一份数据，多种访问方式
🏢 本地化部署	完全私有，无云厂商锁定