作者:vivo 互联网实时计算团队- Chen Tao
本文根据“2022 vivo开发者大会"现场演讲内容整理而成。
vivo 实时计算平台是 vivo 实时团队基于 Apache Flink 计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。
一、vivo 实时计算业务现状
2022年,vivo互联网在网用户总数达到2.8亿,多款互联网应用的日活超过了千万甚至突破了1亿,为了向用户提供优质的内容和服务,我们需要对如此大规模的用户所产生的海量数据进行实时处理,帮助我们进行运营决策、精准推荐、提升终端用户体验,同时通过提升我们的商业化能力为广告主提供更加优质的广告服务。

近几年,大数据实时计算技术和公司的实时数据业务都在飞速发展,截止到今年8月,vivo实时计算每日处理数据量达到5PB,有效任务数超过4000,目前已接入98个项目,从趋势上来看,每年都有超过100%的规模增长,如此大的业务规模和业务增速给我们实时计算团队带来的非常大的挑战。首先,我们要确保业务的稳定,高速增长的数据、复杂的业务场景和系统架构需要我们自底向上的全方位的稳定性建设;为了帮助用户快速落地业务,我们需要降低开发门槛,提供良好的易用性和覆盖各种场景的功能特性,业务的高效接入和运维能带来长期的降本收益。同时,大规模的数据和计算我们也希望能够以尽可能低的成本去运行,这就需要我们提供高效的存储、计算能力,并且对于许多关键业务,实时计算时效性保障的要求也非常高。在复杂的数据环境中要保障数据安全需要有非常良好的且具有前瞻性的设计,优秀的安全能力需要能够提前防范可能的风险。

我们从2019年下半年启动了实时计算平台的建设,2020年关注在稳定性建设,初步上线了SQL能力,2021年引入了Flink 1.13版本并启动了容器化建设,2022年主要关注在效率提升,包括流批一体、任务诊断等,到目前为止,我们平台已初步具备了一些能力,所以今天我代表我们团队简单给大家介绍一下我们的平台建设实践。
二、实时计算平台建设实践

从我们大数据平台的体系架构上来看,我们通过汇聚层能力收集整个vivo互联网的埋点、服务器日志,通过计算、存储、分析等能力从海量数据中挖掘出业务价值。实时计算作为平台的核心能力之一,它同时满足了大规模数据计算和高时效计算的需求,我们通过实时计算平台来承载和向业务提供这方面的能力。
vivo实时计算平台是基于Apache Flink计算引擎自研的覆盖实时流数据接入、开发、部署、运维和运营全流程的一站式数据建设与治理平台。接下来我会从基础服务建设、稳定性建设、易用性建设、效率提升和安全能力建设五个方面来介绍我们团队的建设思路和实践过程。
2.1 基础服务建设

我们自研的实时平台后端架构包括两个核心服务</

vivo实时计算平台基于Flink构建,支持大规模实时数据处理,覆盖开发到运维全流程。平台解决了稳定性、易用性等问题,实现了效率提升,并建设了安全能力。应用于实时数仓、内容推荐等场景。
最低0.47元/天 解锁文章
812

被折叠的 条评论
为什么被折叠?



