提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践

1. 业务背景

阿里妈妈品牌广告数据包括投放引擎、下发、曝光、点击等日志,面向运筹调控、算法特征、分析报表、诊断监控等应用场景,进行了品牌数仓能力建设。随着业务发展,基于Lambda架构的数仓开发模式,缺陷日益突出:

  1. 数据开发效率低,面向一些业务场景,需要同时开发离线和实时两套任务,开发和运维成本增加。

  2. 存储成本增加,需要维护离线和实时两份存储,存储代价大。即使实时数仓开发,也需要将存储在TT的各层数据回流ODPS,用作数据备份和case排查,增加了额外存储开销。

  3. 计算资源消耗大,离线和实时任务需要消耗ODPS和Flink计算资源。

通过数据湖+OLAP湖仓一体架构,对传统数据链路进行升级。流批一体的开发模式,不仅节省了人力开发运维成本,降低计算存储资源消耗,许多业务场景下数据时效性和查询效率显著提高。

2. Paimon湖存储

Apache Paimon从Apache Flink社区内部孵化出来,是新一代的湖格式,创新性地使用LSM结构,将实时更新引入Lakehouse架构中。

2.1 相关概念

🏷 Schema

Paimon表元数据,包含表字段定义和配置参数等。

🏷 Snapshot

数据快照,捕获表在某个时间点的状态。用户可以通过最新的快照来访问表的最新数据。

🏷 Manifest

存储Snapshot的文件增删记录信息。

🏷 Partition

Paimon采用与ODPS相同的分区概念来分离数据。

🏷 Bucket

分区表或非分区表数据组织细分为存储桶,可以有效读写数据。

🏷 Data Files

数据文件按分区和存储桶分组,每个存储桶目录包含变更日志文件。Paimon支持使用 orc、parquet、avro作为数据文件格式。

2.2 为何选择Paimon?

Paimon依托Flink社区,生态更加开放,向下支持盘古、OSS等存储,向上支持Flink、Spark等计算引擎,以及各类OLAP引擎。Paimon功能很完善,支持流读流写和批读批写,支持主键表更新,聚合表和部分更新表等能力,是一种读写性能好、存储成本低的湖存储格式。

3. Dolphin相关能力

Dolphin作为OLAP查询引擎,在Paimon湖存储之上沉淀了许多能力,包括产品化和性能优化等技术能力。

3.1 产品化能力

🏷 极光

极光是基于Dataworks插件化框架打造,面向广告领域的一站式研发平台,可通过极光界面创建、写入、查询Paimon表。用户不用关心表的具体参数配置,如有特殊需求,也可以自定义配置。通过极光面向用户透出Paimon+Dolphin的整体能力。

🏷 FBI报表

FBI是用于数据分析和可视化展示的通用工具,可以帮助用户快速搭建各类报表进行数据分析。

通过定义Dolphin作为数据源,用户自己写好业务SQL,可以在FBI报表查询Paimon数据,使用上非常简单。

🏷 黄金眼监控

黄金眼是一个智能化监控系统,包括数据可视化、智能监控告警等功能。黄金眼支持用户使用Paimon作为数据源,通过调用Dolphin提供查询服务。用户按照黄金眼数据接入规范写入Paimon表,在黄金眼界面选择查询条件并展示结果信息。

3.2 技术能力建设

3.2.1 非精确UV计算
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值