Apache Doris 在菜鸟的大规模湖仓业务场景落地实践

本文内容来自 Community Over Code Asia 2025 大会 (CommunityOverCode 是 Apache 软件基金会(ASF)的官方全球系列大会,其前身为 ApacheCon),OLAP & Data Analysis track 分享议题。本文主要介绍了 Apache Doris 在菜鸟的大规模落地的实践经验,数据分析已经渗透到每个业务线的同学,每天在不同的数据分析报表、数据产品上查数和用数,OLAP 数据库在其中承担着重要作用。我们为什么选择 Doris,以及 Doris 如何在菜鸟从 0 开始,一步步的验证、落地,到如今上万核的规模,服务于各个业务线,Doris 已然成为菜鸟 OLAP 的最优选型。 当然这背后是我们为此做了大量的工作,而这篇文章将围绕此分享我们整个过程的建设经验。

本文目录预览如下:

  • 背景
  • 从验证到大规模迁移到挑战
  • 日常和大促态的稳定性工作
  • 后续规划

一、背景

1.1 菜鸟介绍

菜鸟介绍.PNG

菜鸟成立于 2013 年,是电商物流行业的全球领导者。菜鸟孵化于阿里巴巴全球最大的电子商务生态系统中,构建起了一张全球智慧物流网络,通过不断创新,以满足高速增长的复杂电商物流需求。领先的科技能力,与深刻的电商理解相结合,让菜鸟在每一个业务领域均为领导者。菜鸟是全球第一的跨境电商物流公司,现设有中国、欧洲、亚太、美洲、中东&非洲 5 个大区,围绕全球快递、全球供应链、全球科技三大核心业务持续建设。通过“全球 10 日达”、“全球 5 日达”等颠覆性解决方案帮助中小企业开展跨境贸易。作为中国顶尖的电商综合供应链解决方案提供商,帮助品牌和商家轻松应对全渠道的供应链复杂难题。凭借开创性的逆向物流产品,同时也成为中国最大的逆向物流解决方案提供商。

  • 全球第一的跨境电商物流公司、拥有全球最大的物流网络之一:物流网络覆盖全球 200+ 国家和地区
  • 全球最大的物流仓库网络之一:全球 1,100 多个仓库,总建筑面积约 1,650 万 ㎡。
  • 全球最大的跨境电商快递服务企业:2024 财年,菜鸟全年日均跨境及国际包裹量超 500 万件,规模超过目前全球头部物流企业。
  • 全球最大数字末端网络和物流应用
    • 菜鸟驿站是中国首个亦是全球最大的数字化未端网络,每天处理快递量超 8,000 万个。
    • 菜鸟 APP 让消费者更方便地查看、提取及寄送包裹,是全球最大的物流 APP,平均月活用户超过 6,000 万。

菜鸟介绍-2.JPEG

1.2 实时数据架构

实时数据架构.JPEG

菜鸟的实时数据架构经过最近 3 年的优化和迭代,在选型上已经逐步收敛。

  • 流计算引擎: 流计算引擎可以说在菜鸟也经历了百花齐放的年代,从最初业务线都存在自建的计算引擎,当然大部分的出发点都是为了解决业务当下的痛点问题(比如:面向物流行业的长周期大状态问题),而经过 3 年的发展,已经逐步收敛到 Flink 和自研的大状态流计算引擎上。
  • 存储引擎: 在早期的时候,我们确实存在想通过一种存储引擎解决所有业务问题的想法,但实际操作起来发现无法实现,没有任何一个存储可以做到成本&稳定&研发效率都拉满的银弹存储。 不同的业务场景往往需要选择最适合的存储,从横向上我们大体归为 4 大类,分别是 OLAP、HTAP、NOSQL、搜索。每大类的垂直细分是我们主要的发力点,比如在 OLAP 上,Doris 已经逐步变成菜鸟在 OLAP 上的最优选型,而其他垂类我们也基本收敛到 1 到 2 种选型。

1.3 为什么选择 Doris?

为什么选择 Doris?.png

面向成本友好型的 OLAP 选型,一直是大家探讨最多的话题,尤其在菜鸟仓储业务,在成本和稳定性上是非常痛的一个点,最近几年除了做精细化的集群治理,还要面向业务做合理的数据架构,在这上面我们投入了很大的精力,但在成本和稳定性上均无法达到预期的终态,所以我们在早期也同步在积极探索更高性价比的 OLAP 选型。

而 2 年前,Doris 逐渐走入到我们的视野。 作为 Apache 软件基金会的顶级项目,Apache Doris 在开源持续性方面具有显著优势:一方面,Apache 基金会的治理模式确保了项目的长期稳定发展和社区驱动的创新;另一方面,开源的透明性让我们能够深入了解技术架构,避免厂商锁定风险,同时活跃的 Doris 社区也为我们提供了丰富的技术支持和最佳实践分享。

在前期我们做了大量的调研和性能以及稳定性测试,面向业务视角,成本和稳定性的最重要的两个指标,面向我们自己,运维效率是首要关注的指标,这涉及到未来的大规模推广和部署,而 Doris 在这三项指标上,均超出我们的预期。

值得一提的是,物流数据主要来

课程总体架构请观看89讲。数据仓库是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,用于对管理决策过程的支持。数据仓库的应用有:1.数据分析、数据挖掘、人工智能、机器学习、风险控制、无人驾驶。2.数据化运营、精准运营。3.广告精准、智能投放等等。数据仓库是伴随着企业信息化发展起来的,在企业信息化的过程中,随着信息化工具的升级和新工具的应用,数据量变的越来越大,数据格式越来越多,决策要求越来越苛刻,数据仓库技术也在不停的发展。数据仓库有两个环节:数据仓库的构建与数据仓库的应用。随着IT技术走向互联网、移动化,数据源变得越来越丰富,在原来业  务数据库的基础上出现了非结构化数据,比如网站log,IoT设备数据,APP埋点数据等,这些数据量比以往结构化的数据大了几个量级,对ETL过程、存储都提出了更高的要求。互联网的在线特性也将业务需求推向了实时化 ,随时根据当前客户行为而调整策略变得越来越常见,比如大促过程中库存管理,运营管理等(即既有中远期策略型,也有短期操作型)。同时公司业务互联网化之后导致同时服务的客户剧增,有些情况人工难以完全处理,这就需要机器 自动决策 。比如欺诈检测和用户审核。总结来看,对数据仓库的需求可以抽象成两方面: 实时产生结果、处理和保存大量异构数据。本课程基于真实热门的互联网电商业务场景为案例讲解,结合分层理论和实战对数设计进行详尽的讲解,基于Flink+DorisDB实现真正的实时数,数据来及分析,实时报表应用。具体数报表应用指标包括:实时大屏分析、流量分析、订单分析、商品分析、商家分析等,数据涵盖全端(PC、移动、小程序)应用,与互联网企业大数据技术同步,让大家能够学到大数据企业级实时数据仓库的实战经验。本课程包含的技术: 开发工具为:IDEA、WebStorm Flink 1.11.3Hadoop 2.7.5Hive 2.2.0ZookeeperKafka 2.1.0、Spring boot 2.0.8.RELEASESpring Cloud Finchley.SR2Flume 、Hbase 2.2.6DorisDB 0.13.9、RedisVUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav等课程亮点: 1.与企业接轨、真实工业界产品2.DorisDB高性能分布式数据库3.大数据热门技术Flink最新版4.真正的实时数以及分层设计5.海量数据大屏实时报表6.数据分析涵盖全端(PC、移动、小程序)应用7.主流微服务后端系统8.数据库实时同步解决方案9.涵盖主流前端技术VUE+jQuery+Ajax+NodeJS+ElementUI+Echarts+Datav10.集成SpringCloud实现统一整合方案11.互联网大数据企业热门技术栈12.支持海量数据的实时数报表分析13.支持全端实时实时数报表分析14.全程代码实操,提供全部代码和资料 15.提供答疑和提供企业技术方案咨询企业一线架构师讲授,代码在老师的指导下企业可以复用,提供企业解决方案。  版权归作者所有,盗版将进行法律维权。 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SelectDB技术团队

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值