UData+StarRocks在京东物流的实践 | 京东物流技术团队

原创

于 2023-11-28 11:47:01 发布 · 1.6k 阅读

22 ·

CC 4.0 BY-SA版权

文章标签：

#StarRocks #数据库 #数据分析 #数据服务 #后端

1 背景

数据服务与数据分析场景是数据团队在数据应用上两个大的方向，行业内大家有可能会遇到下面的问题：

1.1 数据服务

烟囱式开发模式：每来一个需求开发一个数据服务，数据服务无法复用，难以平台化，技术上无法积累
服务维护难度大：当开发了大量数据服务后，后期维护是大问题，尤其是618、双11大促期间，在没有统一的监控、限流、灾备方案的情况下一个人维护上百个数据服务是一件很痛苦的事，也造成了很大的安全隐患
业务需求量大：数据开发的同学常常会被大量重复枯燥的数据服务开发束缚，大量的时间投入在业务数据服务开发中

1.2 数据分析

找数据难：用户难以找到自己想要，即便找到名称相近的指标或数据，由于指标口径不明确也不统一也无法直接使用
用数难：由于目前数据分布在各个系统中，用户无法用一个系统满足所有的数据需求。特别是一线运营人员要通过每个从各个系统导出大量Excel的方式做数据分析，费时费力，同时也造成数据安全隐患
查询慢：用传统的Olap引擎，用户跑SQL往往需要几分钟才出结果，大大降低了分析人员的效率。
查询引擎不统一：系统可能有多种查询引擎组成，每一种查询引擎都有自己的DSL，增大了用户的学习成本，同时需要跨多数据源查询也是一件很不方便的事。异构查询引擎带来的另一个问题是形成了数据孤岛，各系统间的数据之间无法相互关联
数据实时更新：传统离线T+1方式数据更新已经无法满足当今的实时化运营的业务诉求，这就要求系统需要到达秒级别的延迟

除了以上问题，数据服务和数据分析系统也是无法统一，分析产生的数据结果往往是离线的，需要额外开发数据服务，无法快速转化为线上服务赋能外部系统，使得分析和服务之间难以快速形成闭环。而且在以往数据加工过程中存储往往只考虑了当时的需求，当后续需求场景扩展，最初的存储引擎可能不适用，导致一份数据针对不同的场景要存储到不同的存储引擎，带来数据一致性隐患和成本浪费问题。

2 基于StarRocks 的数据服务分析一体化实践

基于以上这些业务痛点京东物流运营数据产品团队研发了服务分析一体化系统——UData(Universal Data)，UData系统是以StarRocks引擎为技术基础的实现的。UData把数据指标生成的过程抽象出来，用配置的方式低代码化生成数据服务，大大降低的开发复杂性和难度，让非研发同学也可以根据自己的需求配置和发布自己数据服务，指标的开发时间由之前的一两天缩短为30分钟，大大解放了研发力。平台化的指标管理体系和数据地图的功能，让用户更加直观和方便地查找与维护指标，同时也让指标复用变成可能。

在数据分析方面，我们用基于StarRocks的联邦查询方案打造了UData统一查询引擎，解决了查询引擎不统一和数据孤岛问题，同时StarRocks提供了强悍的数据查询性能，无论是大宽表还是多表关联查询性能都十分出色。StarRocks提供数据实时摄入的能力和多种实时数据模型，可以很好的支持数据实时更新场景。UData系统把分析和服务结合在一起，让分析和服务不再是分割的两个过程，用户分析出有价值的数据后可以立即生成对应的数据服务，让服务分析快速闭环。

数据流程架构图：

改造前的架构：