导读:顺丰科技引入 Doris 替换 Presto,在内部可视化数据自助分析工具丰景台场景广泛应用。目前,顺丰临时查询业务、丰景台报表业务的 Presto 场景已经 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48% 显著收益。
丰景台是顺丰科技自主研发的一款可视化数据自助分析工具,旨在提升数据分析师的工作效率,助力自助分析和业务决策。该产品支持多种丰富的图表类型,用户只需通过拖拽操作即可快速进行自助分析,实现数据可视化。目前,丰景台已广泛支撑顺丰的物流收、转、运、派等各个环节,该平台处理的数据规模庞大,用户数量众多,对实时响应速度和稳定性有着较高要求。
最初,丰景台使用 Presto 作为查询引擎,面临查询速度慢、服务稳定性不足以及资源消耗成本高等问题。为解决这些问题,引入 Doris 替换 Presto,构建统一的数据分析平台。目前,顺丰临时查询业务、丰景台报表业务的 Presto 场景已经 100% 切换到 Doris 集群中,日均查询量 100W+。并实现 P95 性能提升近 3 倍,硬件资源节省达 48%。
使用 Presto 面临挑战
起初,丰景台使用 Presto 作为查询引擎来支撑业务。基于自研的 Presto On Yarn 模式,可以在租户级别根据业务负载情况自动调整 Presto 集群的规模,或根据负载模式选择不同的 Presto 子集群对查询请求进行路由。

因丰景台支撑的业务线众多,查询模式多样化,且高峰期的 QPS 较高,涉及到的数据量庞大。同时,系统对查询延迟有严格的保证需求。在使用 Presto 时遇到了以下问题:
- 查询速度慢: 因 Presto 查询优化器能力有限,无法提供很好的规则优化,尤其在处理复杂查询时,查询速度慢,无法满足性能要求。
- 服务稳定性差: Presto 缺乏内置的缓存机制,容易受到 HDFS IO 抖动的影响,影响服务的稳定性。引入外部缓存组件虽然可以缓解这一问题,但同时也会增加系统的复杂性。
- 资源成本高:Presto 以万核规模运行,需要大量的计算资源和硬件支持,整体资源成本高昂。
- 适用场景有限:Presto 作为查询引擎,但它不具备数据存储的能力,当前只能分析存储在 Hive 中的数据。更加实时的场景、半结构化分析的场景不好满足。
为什么选择 Apache Doris
为解决上述痛点,顺丰在 2024 年初开始调研下一代数据分析产品,旨在寻求一款高性能、功能丰富且适用场景广泛的工具,以支持丰景台及内部业务的各种数据分析需求。Apache Doris 在性能表现和资源成本等方面具有显著优势:
- 查询速度更快: Doris 的查询优化器(CBO)可有效支持复杂查询,尤其是多表关联查询的优化,同时通过丰富的统计信息提升优化规则的准确性。此外,Doris 物化视图能力能灵活应对数据加工和湖仓透明加速等场景。
- 服务稳定性高: Doris 提供内置的元数据和数据缓存能力,可有效降低远端存储(如 HDFS)抖动对查询延迟的不稳定影响,同时降低系统维护的复杂度。
- 湖仓统一及查询加速: Doris 作为湖仓加速引擎,可直接对 Hive、Iceberg 和
顺丰科技:Presto 到 Doris 湖仓构架升级

最低0.47元/天 解锁文章
7742

被折叠的 条评论
为什么被折叠?



