概述
Drois 从早期的百度项目,到开源Apache Doris,到商业化的StarRocks,到各大云服务商,陆续上线,作为新一代的OLAP解决方案,在应用场景上表现得非常好
整理对近期对Doris实时数仓建设的一些思考
背景
- 公司有很多业务线,每个业务线有自己的产品,沉淀了各自业务的数据,也使用了各种不同的存储介质,Mysql,Elasticsearch,Oracle,MongoDB 等等
- 公司希望将数据打通,对数据联合跨库分析,输出结果
- 至于实时数仓的需求,主要是目前很少有人能接受 T+1的数据
- 公司目前的数据量在PB级以下,Hadoop生态暂时不需要涉及,目前Doris也在持续迭代,期待越来越好
主体思路
- 使用Doris对各类数据源进行整合,实现数据层面的打通
- 建立研发的数据库设计使用标准,以及实时数仓的相应规范,数据分层
- 建立统一的数据指标管理,数据资产管理
步骤:
一、 使用Doris对各类数据源进行整合
- 数据整合形式主要分为 『建立外表』、『数据导入』 两种,我们在部份业务初期,并未使用数据导入方式,因为数据导入需要额外的组件及维护成本,并且业务初期,需求变更导致的表结构变更是常事,还有业务初期数据量不大。综合以上考虑,在业务初始 基本策略是『建立外表』,建立的外表,Doris能够将跨库的SQL语法自动拆解,转换为各种类型的存储介质需要的语法结构,然后在Doris中进行数据合并。如:基于Doris实现Mysql与Es的联表查询
- 当某张表达到了一定量级,业务的数据库不能满足分析需求,同时也是对业务库产生了影响,影响客户层面的正常使用,此时就有必要使用『数据导入』,将数据导入到Doris 基于Doris的能力进行针对性优化

文章探讨了使用Doris进行数据整合,建立实时数仓的思路,包括通过建立外表和数据导入来处理不同数据源,利用Flink进行数据同步和优化,以及建立数据库设计标准和数据资产管理。此外,文章强调了上游业务数据规范的重要性,并提到了对历史系统优化的解决方案。
最低0.47元/天 解锁文章
7377

被折叠的 条评论
为什么被折叠?



