OLAP技术组件对比

1.与OLAP相关的概念

OLAP有多种实现方法,根据存储数据的方式不同可以分为ROLAP、MOLAP、HOLAP。

名称描述细节数据存储位置聚合后的数据存储位置
ROLAP(Relational OLAP)基于关系数据库的OLAP实现关系型数据库关系型数据库
MOLAP(Multidimensional OLAP)基于多维数据组织的OLAP实现数据立方体数据立方体
HOLAP(Hybrid OLAP)基于混合数据组织的OLAP实现关系型数据库数据立方体

比方说:MOLAP是一种通过预计算cube方式加速查询的OLAP引擎,它的核心思想是“空间换时间”,典型代表包括Druid和Kylin。

 

2.OLAP的对比

大家比较熟悉的:Impala、SparkSQL 、Hive

Druid:是一个分布式的、支持实时多维OLAP分析的数据处理系统。

Kylin:是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。

Presto:是一个分布式的查询引擎,本身并不存储数据,但是可以接入多种数据源,并且支持跨数据源的级联查询。Presto是一个OLAP的工具,擅长对海量数据进行复杂的分析。

ClickHouse: 由号称 “俄罗斯 Google ” 的 Yandex 公司开源的面向 OLAP 的分布式列式数据库,能够使用 SQL 查询生成实时数据报告。

Doris: PB 级联机分析处理引擎,为客户提供稳定、高效、低成本的在线报表和多维分析服务。

具体对比:

OLAP产品数据摄入存储方式查询性能用户友好程度场景
Druid支持离线 Hdfs数据摄入和实时Kafka 数据摄入LSM 变种,采用一层全维度的roll up 进行预计算,不存储明细查询时在broker层面进行更加深层的聚合计算,毫秒级到秒级组件繁多,有多种组件和进程,依赖 ZK和 MySQL,运维相对复杂,维度度量修改支持在线修改,对用户友好,需要时间字段 。iot、实时监控指标产出、实时渠道聚合分析等
Kylin支持 Hive 和Kafka 摄入,由于使用基于 mr和 spark 的计算引擎进行cube 构建,难以达到分钟级延迟,延迟至少在十分钟至半小时级别全维度预计算构建cube,支持一些策略的剪枝,减少无用计算量,开源版本依赖HBase作为Storage基于全量预计算产出、亚秒级依赖Hadoop生态,适合维度、度量相对稳定的要修改维度、度量需要重新配置,重新构建,不一定需要时间字段维度、度量明确的场景、分析聚合维度多样化,维度尽量不要超过20维,否则将产生维度爆炸
ClickHouse支持离线在线数据录入,但是由于存储设计实时数据摄入千万不能单条频繁摄入,一定要做batch汇总与kylin、druid不同,不做预计算,完全是通过索引、列式存储、压缩、向量化、codegen等充分压榨cpu等计算资源达到快速计算的目的毫秒级至秒级不等单一组件、sql支持良好、分析函数丰富,易上手,需要时间字段渠道漏斗分析、app点击路径事件分析

 

评论 3
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值