seatunnel(海量数据处理工具)实现HDFS导入Clickhouse

最新推荐文章于 2025-07-17 19:01:38 发布

原创

最新推荐文章于 2025-07-17 19:01:38 发布 · 4.1k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#hdfs #spark #big data

文章目录

介绍
快速开始
案例1：HDFS导入Clickhouse

ref: https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/

介绍

seatunnel 是一个非常易用，高性能、支持实时流式和离线批处理的海量数据处理产品，架构于Apache Spark 和 Apache Flink之上。

为什么需要seatunnel ？

让Spark的使用更简单，更高效。简化开发

特性

简单易用，灵活配置，无需开发
模块化和插件化，易于扩展
支持利用SQL做数据处理和聚合

快速开始

参见：https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start

案例1：HDFS导入Clickhouse

在HDFS中存储的日志格式如下，是很常见的Nginx日志

10.41.1.28 github.com 114.250.140.241 0.001s "127.0.0.1:80" [26/Oct/2018:03:09:32 +0800] "GET /InterestingLab/seatunnel HTTP/1.1" 200 0 "-" - "Dalvik/2.1.0 (Linux; U; Android 7.1.1; OPPO R11 Build/NMF26X)" "196" "-" "mainpage" "443" "-" "172.16.181.129"

CK建表</