hadoop3.1.3+flink1.12.0-hive3.1.2-kafka2.12-2.5.0+kudu1.14.0+clickhouse21.4.6.55 流批一体数据仓库架构体系

最新推荐文章于 2024-06-24 14:57:21 发布

置顶科学的N次方

最新推荐文章于 2024-06-24 14:57:21 发布

阅读量872

点赞数 2

CC 4.0 BY-SA版权

分类专栏：数据仓库技术体系

本文链接：https://blog.youkuaiyun.com/chenshijie2011/article/details/117222541

数据仓库技术体系专栏收录该内容

141 篇文章 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了采用Flink构建的流批一体数据仓库架构，涉及ODS、DWD、DIM和DM层的数据处理流程。利用Flink进行实时ETL，结合Hadoop、Hive、Kafka、Kudu和Clickhouse等组件，实现数据的实时处理、存储和分析。同时，介绍了如何根据业务需求选择不同存储引擎，满足各种时效性和查询性能要求。

目前整个过程的核心是flink
批处理选择用pyflink
流处理选择用java+flink
当然之所以这么选择，是跟我的技术栈有关。因为本人之前一直从事离线数仓的工作，批处理一直选择的脚本语言包括python,perl，甚至是kettle脚本。遇到实时数据处理，通常是springboot下面的消息订阅机制（activemq,rabbitmq,kafka）来处理。虽然也能应付实时的要求，但是数据量上来后明显感觉力不从心。另外维护两套引擎，维护工作实在是麻烦。直接看到flink的出现，感觉etl流批可以一体化了。

架构：
在这里插入图片描述

ODS:操作数据层，保存原始数据，对非结构化的数据进行结构化处理，轻度清洗，几乎不删除原始数据。
该层的数据主要来自业务数据库的 binlog 日志、埋点日志和应用程序日志。
对于 binlog 日志直接通过flink sdc 上报到Kafka 中。
除了存储在 Kafka 中，同时也会对业务数据库的 binlog 日志通过 Flink 写入 HDFS、Kudu 等存储引擎。
另外，对于埋点日志和应用程序日志，需要计算实时PV,UV的通过flume读入到kafka, 需要测算运营订单转化率，模块使用率，点击率等功能优化的，则通过flume落地到hdfs。

DWD:实时明细数据层，以业务过程作为建模驱动，基于每个具体的业务过程特点，构建最细粒度的明细层事实表；可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，也即宽