内容来源:宜信技术学院第2期技术沙龙-线上直播|宜信敏捷数据中台建设实践
分享嘉宾:宜信数据中台平台团队负责人 卢山巍
导读:宜信于2017年推出了一系列大数据开源工具,包括大家熟悉的DBus、Wormhole、Moonbox、Davinci等,在技术社区内得到了广泛关注和好评。这些工具是如何在宜信内部应用的?它们和宜信数据中台是怎样的关系?又是如何驱动各种日常数据业务场景的?
本次分享对这些问题进行了回答,同时重点分享了宜信敏捷数据中台的设计、架构以及应用场景,提出一种敏捷数据中台的建设思路,以供参考和探讨。以下是本次分享的实录。
分享大纲:
一、导语
二、宜信数据中台顶层设计
三、从中间件工具到平台
四、典型案例分析
五、总结
六、Q&A
一、导语
目前“中台”的概念很火,包括数据中台、AI中台、业务中台、技术中台等。宜信技术学院第一期技术沙龙,井玉欣博士分享了宜信的AI中台,本期技术沙龙,由我来为大家分享《宜信敏捷数据中台建设实践》。
为什么我们要在数据中台前加上“敏捷”呢?了解我们的朋友都知道我所在的团队是宜信敏捷大数据团队,我们倡导“敏捷平民化”,把敏捷思想融入到系统建设中,并且研发了四个开源平台:DBus、Wormhole、Moonbox、Davinci。宜信的数据中台是由我们敏捷大数据团队基于四大开源平台开发建设的,因此我们将宜信的数据中台称之为“敏捷数据中台”。
本次分享分为三个部分:
-
宜信敏捷数据中台的顶层设计。数据中台是一个公司级的平台系统,所以不能只从技术层面去设计,还要考虑包括流程、标准化等在内的顶层设计。
-
从中间件工具到平台介绍宜信是如何设计建设敏捷数据中台的。
-
结合典型案例介绍宜信敏捷数据中台支持哪些数据方面的应用和实践。
二、宜信敏捷数据中台的顶层设计
2.1 特点和需求
关于数据中台的建设,目前并没有一个标准的解决方案,也没有一个数据中台能适用于所有的公司,每个公司都应该结合自己的业务规模及数据需求现状来研发适合自己公司的数据中台。
在介绍宜信敏捷数据中台的顶层设计之前,我们先来了解其背景:
- 业务板块和业务条线众多。宜信的业务大体可分为四大板块:普惠金融板块、财富管理板块、资产管理板块、金融科技板块,拥有近百条业务线和产品线。
- 技术选型众多。不同业务方有不同的数据需求,技术选型时依据这些客观需求及主观偏好,会选择不同的数据组件,包括 :MySQL、Oracle、HBase、KUDU、Cassandra、Elasticsearch、MongoDB、Hive、Spark、Presto、Impala、Clickhouse等。
- 数据需求多样。业务线多样,导致数据需求多样,包括:报表、可视化、服务、推送、迁移、同步、数据应用等。
- 数据需求多变。为顺应互联网的快速变化,业务方的数据需求也是多变的,经常有周级产出数据需求和数据应用。
- 数据管理考虑。要求数据元信息可查,数据定义和流程标准化,数据管理可控等。
- 数据安全考虑。宜信作为一家同时拥有互联网属性和金融属性的公司,对数据安全和权限的要求很高,我们在数据安全方面做了很多工作,包括:多级数据安全策略、数据链路可追溯、敏感数据不可泄露等。
- 数据权限考虑。在数据权限方面的工作包括:表级、列级、行级数据权限,组织架构、角色、权限策略自动化。
- 数据成本考虑。包括集群成本、运维成本、人力成本、时间成本、风险成本等。
2.2 定位
关于数据中台的定位,每个公司都不太一样。有的公司业务比较专注,只有一条业务线,那它在建设数据中台的时候,可能需要一个垂直的平台,直达前线,更好地支持前线的运作。
前文提到宜信业务线很多,且在众多业务中没有一个主体业务,这就相当于所有业务线都是主体。基于这样的背景,我们需要一个平台化的数据中台,来支撑所有业务线的需求和运作。
图1 定位
如上图所示,绿色的部分是宜信敏捷数据中台,我们称之为“ADX数据中台平台”,“A”即“Agile(敏捷)”,之所以称为“平台”,是因为我们希望将其打造成一个服务于全业务线的平台系统,助力业务发展。
敏捷数据中台处于中间位置,最底下是各种数据集群,最上端是各个业务领域数据团队。数据中台通过整合处理数据集群的数据,为业务领域数据团队提供自助化、实时化、统一化、服务化、管理化、可溯化的数据服务。
右边三个蓝色的板块分别是数据管理委员会、数据运维团队和数据安全团队。前文提到宜信对数据安全的要求非常高,所以设置了专门的数据安全团队来规划公司数据安全的流程和策略;数据管理委员会负责数据的标准化、流程化,补齐技术型驱动的数据中台的推动效率,保证有效沉淀和呈现数据资产。
我们对宜信敏捷数据中台的定位是:从数据技术和计算能力复用,到数据资产和数据服务复用,敏捷数据中台会以更大价值带宽,快、准、精让数据直接赋能业务。
2.3 价值
宜信敏捷数据中台的价值集中表现为三个方面:快、准、省。
图2 价值
存在的问题 | 敏捷数据中台之“快” |
---|---|
定制化需求造成重复开发 | 平台化,透明封装复用技术组件 |
内包实施团队需排期 | 自助化,简单配置,月=>天 |
T+1延时满足不了实时及精细化运营 | 实时化,驱动业务增长,天=>分 |
存在的问题 | 敏捷数据中台之“准” |
---|---|
数据存储各异,取数方式各异,清洗逻辑各异 | 统一化,统一数据湖归集和出口 |
数据孤岛未打通整合 | 管理化,元数据、数据地图、血缘 |
需求驱动实施,无法沉淀数据资产 | 资产化,模型管理让数据可信赖,标准化模型加工促使数据资产沉淀 |
存在的问题 | 敏捷数据中台之“省” |
---|---|
时间成本,需求排期和重复开发 | 自助化,节省时间就是节省成本 |
人力成本,重复开发和缺少复用 | 平台化,成熟技术组件高复用度 |
硬件成本,集群资源滥用造成浪费 | 精细化,集群资源可估可查可量化 |
2.4 模块架构维度
图3 模块架构维度
如图所示,宜信敏捷数据中台的建设也是基于“小前台,大中台”的共识。整个中间部分都属于敏捷数据中台包含的内容,左边绿色部分是基于数据维度来看整个中台,右边蓝色部分则是基于平台维度来看中台。
-
数据维度。各种内部数据、外部数据先归集到数据源层,再以统一化、实时化、标准化、安全化等方式存储起来形成数据湖层,数据湖对这些原始数据进行处理和体系化归类,转化为数据资产;数据资产层包括数仓体系、指标体系、标签体系、特征体系、主数据等;最后将沉淀的这些可复用的数据资产提供给数据应用层,供BI、AI、数据产品应用。
-
平台维度。每个蓝色的方框都代表一个技术模块,整个宜信敏捷数据中台就是由这些技术模块组合而成。其中DataHub数据枢纽,可以帮助用户完成自助数据申请、发布、脱敏、清洗和服务等;DataWorks数据工坊,可以对数据进行自助查询、作业、可视化等处理;还有DataStar数据模型、DataTag数据标签、DataMgt 数据管理、ADXMgt 中台管理等。
值得一提的是,这些模块都不是从0开发的,而是基于我们已有的开源工具。首先,基于成熟的中间件工具来进行开发,可以节约开发的时间和成本;其次,开源工具成为引擎,可以共同合力支撑更大的一站式平台。
2.5 数据能力维度
图4 数据能力维度
将上述架构模块重新按照能力维度划分,可以分成若干层,每一层都包含若干能力。如图所示,可以清晰地看到建设数据中台需要具备哪些数据能力,这些能力都对应哪些功能模块,分别能解决什么问题。此处不再展开赘述。
三、从中间件工具到平台
3.1 ABD总览
图5 ABD总览
中间件工具指DBus、Wormhole、Moonbox、Davinci四大开源平台,它们从敏捷大数据(ABD,Agile BigData)理念中抽象而出,组成ABD平台栈,敏捷数据中台则被我们称为ADX(Agile Data