企业级-实时数仓架构图

本文汇集了多位技术专家的分享,涵盖了滴滴、腾讯、顺丰、汽车之家、网易等公司的实时数仓构建实践经验,重点介绍了基于Flink的实时数据处理和OLAP系统。各嘉宾分享了业务背景、架构设计、平台建设、挑战与未来规划,展示了Flink在大规模数据处理中的应用和价值。

往期类似文章:

实时数仓之 Kappa 架构与 Lambda 架构_奔跑者-辉的博客-优快云博客

实时数仓之实际落地如何选型和构建_奔跑者-辉的博客-优快云博客


目录

1 基于Flink的滴滴实时数仓实践

2 实时OLAP , 从0到1

3 腾讯基于Flink  + Iceberg 全场景实时数仓的建设实践

4 腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统 

5 龙逸尘-Flink在顺丰的应用实践 

6 Apache Flink在汽车之家的应用及实践

7 叶贤勋-网易流批一体的实时数仓平台实践

1 基于Flink的滴滴实时数仓实践

分享嘉宾:潘澄,滴滴基础平台 资深研发工程师

分享大纲:

  • 整体概况

  • 业务实践

  • 平台&引擎

  • 总结反思

  • 未来规划

2 实时OLAP , 从0到1

分享嘉宾:高正炎,比特大陆

分享大纲:

  • 业务背景

  • 机遇挑战

  • 架构演进

  • 架构优化

  • 未来展望

3 腾讯基于Flink  + Iceberg 全场景实时数仓的建设实践

分享嘉宾:苏舒,腾讯平台 高级研发工程师

分享大纲:

  • 背景及痛点

  • 数据胡技术apache iceberg

  • flink+ iceberg构建实时数仓

  • 未来规划

4 腾讯看点基于Flink构建万亿数据量下的实时数仓及实时查询系统 

分享嘉宾:王展雄,腾讯看点数据团队 高级工程师

分享大纲:

  • 背景介绍

  • 架构设计

  • 实时数仓

  • 实时查询系统

龙逸尘-Flink在顺丰的应用实践 

分享嘉宾:龙逸尘,顺丰科技

分享大纲:

  • 建设背景

  • 建设思路

  • 落地实践

  • 应用案例

  • 未来规划

 6 Apache Flink在汽车之家的应用及实践

分享嘉宾:邸星星,汽车之家 实时计算平台负责人

分享大纲:

  • 背景及现状

  • autostream平台

  • 基于flink的实时生态

  • 后续规划

 

 

 7 叶贤勋-网易流批一体的实时数仓平台实践

分享嘉宾:叶贤勋,网易 资深平台开发工程师

分享大纲:

  • 实时计算演进及业务背景

  • 实时数仓平台建设

  • 基于arctic流批一体实践

  • 未来规划

 

 

数据仓库架构图通常包括多个层级,如数据源层、ETL(抽取、转换、加载)层、数据存储层、查询层和应用层。以下是一个典型的三层数据仓库架构: ### 数据源层 数据源层是数据仓库的起点,通常包括各种操作型数据库、外部数据文件、日志文件等。这些数据源可能来自不同的系统,例如ERP、CRM、财务系统等。 ### ETL 层 ETL 层负责从数据源中提取数据,进行清洗、转换,并最终加载到数据仓库中。ETL 过程通常涉及数据验证、格式转换、聚合计算等步骤,以确保数据的质量和一致性。 ### 数据存储层 数据存储层通常分为数据仓库(Data Warehouse)和数据集市(Data Mart)。数据仓库用于存储企业级的历史数据,而数据集市则专注于特定业务领域的子集数据。 ### 查询层 查询层提供对数据的访问接口,支持用户通过SQL或其他查询工具获取所需的数据。这一层通常包括OLAP(联机分析处理)服务器、BI(商业智能)工具等。 ### 应用层 应用层是数据仓库的最终使用场景,包括报表生成、数据分析、数据可视化等。常见的工具有Tableau、Power BI、Superset等。 ```python # 示例代码:简单的数据仓库架构模拟 class DataWarehouse: def __init__(self): self.data_sources = [] self.etl_processes = [] self.data_store = {} self.queries = [] def add_data_source(self, source): self.data_sources.append(source) def run_etl(self, process): self.etl_processes.append(process) # 模拟ETL过程 print(f"Running ETL process: {process}") def store_data(self, key, data): self.data_store[key] = data def query_data(self, key): return self.data_store.get(key, None) # 创建数据仓库实例 dw = DataWarehouse() dw.add_data_source("Sales DB") dw.run_etl("Extract Sales Data") dw.store_data("sales_data", {"revenue": 1000000, "units_sold": 5000}) result = dw.query_data("sales_data") print(result) ``` ### 相关问题 1. 如何设计一个高效的数据仓库架构? 2. 数据仓库与数据湖的区别是什么? 3. 在数据仓库中,ETL 和 ELT 的区别是什么? 4. 有哪些常用的工具可以用来构建和管理数据仓库? 5. 数据仓库中的星型模式和雪花模式有什么不同?
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值