从 Clickhouse 到 Apache Doris,慧策电商 SaaS 高并发数据服务的改造实践

文章讲述了慧策在数据分析产品慧经营中,从使用Clickhouse遇到性能瓶颈,转向采用ApacheDoris作为OLAP引擎的过程。通过引入ApacheDoris,慧策解决了高并发查询、资源分配和Join性能等问题,实现了ETL效率和查询性能的大幅提升,同时也降低了存储成本和运维复杂度。文章还分享了关于分区分桶优化、多租户和资源隔离方案的实践经验。

作者介绍: 马成,慧策 JAVA高级研发工程师

慧策(原旺店通)是一家技术驱动型智能零售服务商,基于云计算 PaaS、SaaS 模式,以一体化智能零售解决方案,帮助零售企业数字化智能化升级,实现企业规模化发展。凭借技术、产品、服务优势,慧策现已成为行业影响力品牌并被零售企业广泛认可。2021年7月,慧策完成最新一轮 D 轮 3.12 亿美元的融资,累计完成四轮逾 4.52 亿美元的融资,与诸多国际一流企业、行业头部企业并列而行,被全球顶尖投资公司看好。

业务需求

慧经营是一款数据分析产品,主要提供经营分析、运营分析、应收对账三大功能,面向企业的经营、运营、财务三个角色。如图所示,慧经营上游为常见的电商平台、直播平台以及慧策主要的产品旺店通,这些平台在交易过程中会产生大量的数据,包括收入、成本以及多种费用相关的数据。这些数据都比较分散,如果客户手动进行数据汇总和分析,过程繁琐、难度较高且展示不够直观。而慧经营可以在客户授权下获取、汇总这些数据,根据客户需求提供经营分析、报表生成、账单汇总等多项数据分析服务,以帮助客户更好地经营店铺。

为了能承载上述数据相关的服务,我们在系统架构设计之初需要考虑以下几点:

  • 低成本:慧经营的付费模式为按需付费,这要求架构必须具有轻量化、易维护的特性。基于这点考虑,首先排除基于 Hadoop 的生态架构,虽然 Hadoop 足够成熟,但是组件依赖度较高、繁琐复杂,无论是运维成本还是使用成本都非常高。

  • 高性能:电商数据为慧经营的主要数据来源,数据维度丰富, ETL 复杂度高;另外,在很多使用场景中明细查询与聚合查询是并存的,既需要够快速定位数据范围,又需要高效的计算能力,因此需要一个强大的 OLAP 引擎来支撑。

  • 合理资源分配:客户规模差异较大,有月单量只有 1 万的小客户,也有月单量高达千万级别的大客户,资源合理分配在这样的场景下异常重要,因此要求 OLAP 引擎可以在不影响用户体验的前提下,可以根据客户的需求进行资源分配,避免大小查询资源抢占带来的性能问题。

  • 高并发:能够承受上游平台多来源、高并发的大量数据的复杂 ETL,尤其在 618、双 11 这样的业务高峰期,需要具备高效查询能力的同时,能够承担大量的写入负载。

架构演进

架构 1.0

基于以上考虑,我们在架构 1.0 中引入 Clickhouse 作为 OLAP 引擎。从上图可看出该架构是一个完全基于后端 Java 以及 Spring 的技术架构,通过 Binlog 同步的方式通过 Canal 和 Kafka 将数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

SelectDB技术团队

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值