StarRocks + Paimon 在阿里集团 Lakehouse 的探索与实践

作者:

范振: 阿里云计算平台开源 OLAP 负责人,StarRocks 社区 Champion

翁才智: 阿里云技术专家,Apache Paimon PMC Member

导读:阿里集团在推进湖仓一体化建设过程中,依托 StarRocks 强大的 OLAP 查询能力与 Paimon 的高效数据入湖特性,实现了流批一体、存储成本大幅下降、查询性能数倍提升的显著成效:

A+ 业务借助 Paimon 的准实时入湖,显著降低了存储成本,并引入 StarRocks 提升查询性能。升级后,数据时效提前60分钟,开发效率提升50%;JSON列化存储减少50%,查询性能提升最高达10倍;OLAP分析中,非JOIN查询快1倍,JOIN查询快5倍。

饿了么升级为准实时Lakehouse架构后,在时效性仅损失1-5分钟的前提下,实现Flink资源缩减、StarRocks查询性能提升(仅5%性能损失),存储成本降低90%。

阿里集团数据湖项目背景

在过去的十几年中,Hadoop 体系一直是大数据领域的主流架构。无论是大型企业还是中小型企业,大家普遍采用的都是基于 Hadoop 和 Lambda 的架构。具体来说,在离线处理方面,Hive 和 Spark 是主要的工具;而在实时处理领域,Flink 已经成为一种事实标准。在 OLAP 领域,过去几年呈现出百家争鸣的局面,但最近两三年,StarRocks 的市场份额显著增加。

Hadoop 和 Lambda 架构为各公司带来了巨大的商业成功,无论是在数据处理量上,还是在替代传统数据库方面,都发挥了重要作用。以阿里集团为例,其整体架构与行业主流类似,但采用了自研体系,包括 MaxCompute 用于离线处理,以及 Flink 用于实时处理。此外,阿里还推出了 MaxCompute 和 Hologres 等产品,进一步完善了其大数据体系。

然而,Hadoop 和 Lambda 架构也面临着一些挑战,例如需要维护两套架构,存在代码重复编写、数据冗余、开发口径不统一以及数据孤岛等问题。为了应对这些挑战,近年来我们观察到行业趋势主要体现在以下三个方面:

  1. Lakehouse 架构的兴起:Lakehouse 作为一种融合了数据湖和数据仓库优势的架构,已经成为行业共识。无论是北美还是国内,Lakehouse 架构的接受度都非常高。

  2. 开源与社区的力量:开源社区逐渐成为数据领域的主流方向,许多开源公司不断进化,StarRocks 就是其中的佼佼者。

  3. AI 与 BI 的融合:AI 技术在近年来形成了浪潮,AI 与 BI 系统的融合,特别是在元数据打通和开放性方面,已经成为架构升级的必然需求。

基于这些趋势,阿里集团进行了深入思考,希望对整体数据架构进行升级,以实现以下目标:

  1. 流批统一:通过一套代码和统一的架构,简化运营成本,提升开发效率。

  2. 统一存储:寻找低成本的存储解决方案,降低数据存储成本。

  3. 高性能分析:在不牺牲业务体验的前提下,选择一款优秀的 OLAP 引擎或 Lakehouse 引擎,推动架构升级。

  4. 数据统一:实现结构化与非结构化数据的统一,为 AI 与 BI 的融合提供支持,确保“Data for AI”和“AI for Data”在阿里集团顺利落地。

全面升级为 Lakehouse 架构

阿里集团的整体目标与阿里云的目标有着高度的一致性。在2024年的云栖大会上,阿里云推出了名为 OpenLake 的架构。这一架构旨在通过低成本、高可靠的存储解决方案(如阿里云 OSS)构建数据湖。在数据湖格式方面,目前行业内逐渐形成了

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值