首次公开!阿里巴巴云原生实时数仓核心技术揭秘

本文介绍了阿里云新一代云原生数仓Hologres。它支撑了2020年双11数据处理,解决了传统数仓和Lambda架构痛点。基于HSAP理念,采用存储计算分离等技术,兼容PostgreSQL生态,支持实时写入查询、离线联邦分析,助力数仓架构升级,实现服务和分析一体化。
简介:揭秘Hologres的核心技术优势

4982亿,是2020年天猫双十一成交额最终定格的数字。在这背后,是人类历史上最大规模的人机协同,更是数字世界史无前例的巅峰挑战。阿里云新一代云原生数仓Hologres作为双十一背后重要的技术支撑,消费者的每一次搜索、浏览、收藏、加购,都会变成实时数据流入Hologres进行存储,并与天猫上沉淀的历史离线数据进行交叉比对。
2020双十一,Hologres顶住了5.96亿每秒的实时数据洪峰,单表存储高达2.5PB。基于万亿级数据对外提供多维分析和服务,99.99%的查询可以在80ms以内返回结果,真正做到数据的实时及离线一体化,支持在线应用服务。
Hologres诞生到参与2020年史上最强双十一的三年多时间里,完成不少从0到1的突破:

  • 从一个业务到数百业务实例,覆盖了阿里巴巴集团内90%以上业务场景,包括双十一实时直播间、智能推荐、阿里妈妈数据平台、国际站数据平台、菜鸟数据平台、友盟+全域数据分析、CCO智能客服、新零售数据平台、考拉、饿了么等业务。
  • 集群规模从0到近万台,且存储集群和计算集群使用率都比较高,并完成了系统产品化-上云-商业化的三级跳,完美赋能阿里云公共云+专有云+金融云业务。
  • 提出HSAP(HybridServing & Analytics Processing)服务分析一体化的系统设计理念,同一份数据同时满足实时离线在线场景的计算需求,极大的简化了数仓架构的复杂度,降低了成本,重新定义数仓趋势。
  • 同时,有关Hologres的技术解读Paper入选数据库顶会VLDB《Alibaba Hologres: ACloud-Native Service for Hybrid Serving/Analytical Processing》(http://www.vldb.org/pvldb/vol13/p3272-jiang.pdf

值此之际,我们也将首次对外公开Hologres的核心底层技术,揭秘Hologres为何能支撑阿里巴巴核心场景的落地。 
**

一、传统数仓痛点

1)传统数据仓库痛点

目前来说,大数据相关的业务场景一般有实时大屏、实时BI报表、用户画像和监控预警等,如下图所示。

  • 实时大屏业务,一般是公司领导层做决策的辅助工具,以及对外成果展示,比如双十一实时成交额大屏等场景。
  • 实时BI报表,是运营和产品经理最常用到的业务场景,适用于大部分的报表分析场景。
  • 用户画像,常用在广告推荐场景中,通过更详细的算法给用户贴上标签,使得营销活动更加有针对性,更加有效的投放给目标人群。
  • 预警监控大屏,比如对网站、APP进行流量监控,在达到一定阈值的时候可以进行报警。

image.png
 
对于上面这些大数据业务场景,业界在很早之前就开始通过数据仓库的建设来满足这些场景的需求,比较传统的做法是如下图所示的离线数据仓库,其大致流程就是:首先将各类数据收集起来,然后经过ETL处理,再通过层层建模对数据进行聚合、筛选等处理,最后在需要的时候基于应用层的工具对数据进行展现,或者生成报表。

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值