福建纵腾网络有限公司(简称“纵腾集团”)成立于 2009 年, 以“全球跨境电商基础设施服务商”为企业定位,聚焦跨境仓储与物流, 为全球跨境电商商户、出口贸易企业、出海品牌商提供海外仓储、商业专线物流、定制化物流等一体化物流解决方案, 旗下拥有谷仓海外仓 、云途物流 、WORLDTECH 等知名品牌 。
作者|纵腾集团数据技术架构师 张彬华
随着纵腾集团业务的快速发展,各产品线提出的数据需求越发严格,而早期基于多套 CDH 大数据架构的技术栈和组件繁杂,开发和运维难度高、效率低,数据质量和时效难以保障,已无法满足当下数据分析需求,严重影响相关工作的开展。因此,纵腾集团在 2022 年正式引入 Apache Doris,基于 Apache Doris 构建了新的流批一体数据架构,同时建立了以 Apache Doris 为核心的数据中台。 构建过程中对读写时效性、服务的稳定性及高并发读写等多方面进行了优化,在这一过程中我们也积累了诸多实践经验,在此总结分享给大家。
早期架构
早期数仓架构主要分为两套基于 CDH 的大数据集群,这两套架构用于不同产品线的数仓需求、数据大屏和 BI 报表等应用。
这两套架构为独立的数据管道,具有耦合度低,集群间相互独立等特点,便于精细化管理。但随着业务需求的不断变化,这样的特点也引发出许多新的问题。
遇到的问题
元数据和数据质量缺乏管控,数据质量无法得到保证
不同业务数据独立存储维护导致数据孤岛,不利于数据整合
每个集群的机房分布不一,维护成本非常高
集群间的技术栈和组件较多且存在差异性,对统一开发运维和数据整合都极具挑战性
架构选型
为了解决早期架构的痛点、更好满足日益严苛的数据需求,我们希望能有一款产品帮助我们快速构建流批一体的数仓架构、构建数据中台服务。
我们对传统数仓、 实时数仓和数据湖进行了对比。从上图可知,传统数仓可以支撑超 PB 级的海量数据,但是交互查询性能相对差一些,偏离线场景,不满足我们对数据实时性的要求;数据湖可以支撑超海量的数据,支持数据更新,查询性能适中,但是数据湖近两年才开始应用,成熟度较低,使用风险较大;实时数仓适用 PB 级数据存储,支持数据更新且查询性能非常好。结合我们的要求,实时数仓与我们的使用和需求场景都比较贴合,因此我们最终决定选择实时数仓作为数据底座。
接着我们对市面上较为流行的三款实时数仓:ClickHouse、Apache Druid、Apache Doris 进行了选型对比,对比图如下:
对比可知,Apache Doris 优势明显、性价比更高,具有独立主从架构简单、运维更灵活便捷、丰富的数据模型、优秀的查询性能和周全的生态规划等诸多优势,对比这三个产品,Apache Doris 最符合我们的选型要求。
新数据架构
新数据架构基于 Apache Doris 简化了数据采集、存储和计算的流程:
结合 DataHub 实现自研元数据采集和周期管理
通过 Seatunnel 集成 Flink Doris Connector 稍加改造实现全量加增量数据的一体化采集

纵腾集团因早期CDH大数据架构无法满足严格数据需求,引入ApacheDoris构建新的数据架构,简化数据流程并优化读写时效性、服务稳定性和高并发处理。通过数仓建模和性能压测,ApacheDoris展现出高性能和灵活性,成为数据中台的核心。
最低0.47元/天 解锁文章
2643

被折叠的 条评论
为什么被折叠?



