文章目录
ref: https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/
介绍
seatunnel 是一个非常易用
,高性能
、支持实时流式
和离线批处理
的海量数据
处理产品,架构于Apache Spark
和 Apache Flink
之上。
为什么需要seatunnel ?
- 让Spark的使用更简单,更高效。
简化开发
特性
- 简单易用,灵活配置,无需开发
- 模块化和插件化,易于扩展
- 支持利用SQL做数据处理和聚合
快速开始
参见:https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start
案例1:HDFS导入Clickhouse
在HDFS中存储的日志格式如下, 是很常见的Nginx日志
10.41.1.28 github.com 114.250.140.241 0.001s "127.0.0.1:80" [26/Oct/2018:03:09:32 +0800] "GET /InterestingLab/seatunnel HTTP/1.1" 200 0 "-" - "Dalvik/2.1.0 (Linux; U; Android 7.1.1; OPPO R11 Build/NMF26X)" "196" "-" "mainpage" "443" "-" "172.16.181.129"