作者:许天云
本文来源:原创投稿
*爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。
一. 大纲
本篇分享下个人在实时数仓方向的一些使用经验,主要包含了ClickHouse 和 StarRocks 这两款目前比较流行的实时数仓,文章仅代表个人拙见,有问题欢迎指出,Thanks♪(・ω・)ノ
关于实时数仓,是目前在互联网上比较火的概念,不同于传统的 T+1 的离线数仓(Hadoop 之类),实时数仓更加追求于数据的实时分析能力,也更加符合现阶段各类分析场景对于数据及时性的诉求,例如:ClickHouse 、StarRocks 等都是这一方案的典型代表。
先简单介绍下本篇讨论的两款实时数仓产品:
-
ClickHouse:由 Yandex(俄罗斯最大的搜索引擎)开源的一个用于实时数据分析的基于列存储的数据库。 -
StarRocks:新一代的国产MPP数据库,由 Apache Doris 数据库演进而来,并且进行了商业化支持。
二. 调研过程简述
2.1. 调研诉求
项目上由于 MySQL 中的数据量极速增长后,MySQL 自身无法承担一些实时的olap查询,所以需要调研一款实时数仓来解决。
我这的业务诉求比较简单,大致有以下几点:
- 实时数仓需要兼容 MySQL 协议与 SQL 语法,开发不需要额外的学习成本,可以快速上手。
日志类数据(只会追加)需要支撑亿级别实时分析,而业务类数据(不断更新)需要支撑千万级别实时分析并且对于 JOIN 性能要比较好,因为存在很多 JOIN

本文介绍了作者在实时数仓领域的实践经验,对比了ClickHouse和StarRocks在处理日志流数据和业务流数据上的表现。ClickHouse适合日志分析,单机性能强,而StarRocks在业务数据实时更新和JOIN性能上有优势,更适合部署在集群环境中。文章还探讨了从MySQL到MPP数据库的实时同步方法。
最低0.47元/天 解锁文章
2615

被折叠的 条评论
为什么被折叠?



