实时数仓架构图:
说明:
数据采集层:原始数据目前分三种,由中台生成的埋点日志用于主流,RDBMS则是获取业务库表,通常用于维表关系所需,binlog日志通过cdc方式进入kafka进行消费,用于大维表的增量更新。
数据计算层:数据计算层的计算引擎是Flink,通过较上层的FlinkSQL实现数据的ETL加工,其中HDFS作用于大维表初始化到Hbase过程所用,再通过Flinksql消费binlog日志进行增量更新。
数据共享层:通过Flinksql对主流表进行打宽后输出到dw层kafka为最终的结果明细数据,Clickhouse支持通过这个Kafka进行批量插入操作,可通过Flinksql多维度轻度汇总写入到RDBMS,也可接入Skyeye平台进行配置计算结果输出到wtable。
数据应用层:数据应用层为OLAP分析工具,通过接入数据共享层数据即可进行实时报表展现,实时播报,即席查询等功能。
数据流程图:
v1.0