智领云自主研发的开源轻量级Kubernetes数据平台,即Kubernetes Data Platform (简称KDP),能够为用户提供在Kubernetes上的一站式云原生数据集成与开发平台。在最新的v1.1.0版本中,用户可借助 KDP 平台上开箱即用的 Airflow、AirByte、Flink、Kafka、MySQL、ClickHouse、Superset 等开源组件快速搭建实时、半实时或批量采集、处理、分析的数据流水线以及可视化报表展示,可视化展示效果如下:

以下我们将介绍一个实时订单数据流水线从数据采集到数据处理,最后到可视化展示的详细建设流程。
1.流水线设计
借助 KDP 平台的开源组件 Airflow、MySQL、Flink、Kafka、ClickHouse、Superset 完成数据实时采集处理及可视化分析,架构如下:

1.1 数据流
直接使用Flink构建实时数仓,由Flink进行清洗加工转换和聚合汇总,将各层结果集写入Kafka中;
ClickHouse从Kafka分别订阅各层数据,将各层数据持久化到ClickHouse中,用于之后的查询分析。
1.2 数据表
本次分析数据基于mock数据,包含数据实时采集处理及可视化分析:
消费者表:customers
字段 |
字段说明 |
id |
用户ID |
name |
姓名 |
age |
年龄 |
gender |
性别 |
订单表:orders
字段 |
字段说明 |
order_id |
订单ID |
order_revenue |
订单金额 |
order_region |
下单地区 |
customer_id |
用户ID |
create_time |
下单时间 |
1.3 环境说明
在 KDP 页面安装如下组件并完成组件的 QuickStart:
MySQL: 实时数据数据源及 Superset/Airflow 元数据库,安装时需要开启binlog
Kafka: 数据采集sink

最低0.47元/天 解锁文章
1099

被折叠的 条评论
为什么被折叠?



