作者:腾讯大数据 高级工程师 陈九天
小编导读: 腾讯天穹是协同腾讯内各 BG 大数据能力而生的 Oteam,作为腾讯大数据领域的代名词,旨在拉通大数据各个技术组件,打造一个具有统一技术栈的公司级大数据平台体系。从底层数据接入、数据存储、资源管理、计算引擎、作业调度,到上层数据治理及数据应用等多个环节,支持腾讯内部近 EB 级数据的存储和计算,为业务提供海量、高效、稳定的大数据平台支撑和决策支持。 本文介绍了目前业内在湖仓融合场景下遇到的问题:湖仓数据如何自由流转、湖仓数据如何做到融合查询、如何优化湖仓建模链路等,同时介绍了天穹 StarRocks 湖仓融合架构是如何解决以上问题,并大规模落地腾讯内部业务的。该架构在兼顾查询性能与存储成本的情况下,大大简化了用户的湖仓建模链路。
当前湖仓融合架构面临的问题
数据湖的核心优势在于开放生态,数据湖通常会采用开放的存储格式,支持各种类型数据,扩展性强、存储成本比较低。而数仓的核心优势在于数据质量高,查询性能比较强,具备实时分析能力,数据治理功能完善等。数据湖和数据仓库各有优势,我们希望通过湖仓融合来充分发挥两者的优势。

图中为 Kappa 架构下使用数据湖和数据仓库的典型方式。我们通常会在湖中进行数据建模,将清洗过后的数据入仓,把冷数据存在湖中、热数据入仓,以此实现降本增效。在湖上的查询对性能可以不太敏感,而仓中则对性能更加敏感,会根据场景选用不同的引擎。
图中的架构已经比较简单,但仍然有两个值得优化的方向:
-
分析引擎还处于百花齐放的状态,各有优劣,用户经常会遇到选型困难的问题;
-
数据建模的链路比较长,涉及的组件也比较多;

针对第一个问题,我们在 2.1 版本的时候引入了 StarRocks,StarRocks 当时已经是一款极其优秀的 OLAP 引擎,我们最初是希望用 StarRocks 来替换 ClickHouse,因为两者有着性能相当的单表查询能力,而 St

本文介绍了腾讯天穹StarRocks在湖仓融合场景下的解决方案,包括数据流转、湖仓查询优化、外表物化视图和Icebergroutineload的使用,以及如何通过天穹架构简化湖仓建模。该架构提升了查询性能,降低了存储成本,并解决了数据一致性问题。
最低0.47元/天 解锁文章
1053

被折叠的 条评论
为什么被折叠?



