什么是大数据?
在信息化时代背景下,由于信息交互,信息存储,信息处理能力大幅增加而产生的数据
什么是OLAP?
OLAP (Online Analytical Processing) 对业务数据执行多维分析,并提供复杂计算,趋势分析和复杂数据建模的能力。是许多商务智能(BI)应用程序背后的技术。OLAP已经发展为基于数据库通过SQL对外提供分析能力。 与MapReduce Job相比,OLAP引擎常通过SQL的形式,为数据分析、数据开发人员提供统一的逻辑描述语言,实际的物理执行由具体的引擎进行转换和优化
常见的OLAP引擎:
- 预计算引擎:Kylin, Druid
- 批式处理引擎:Hive, Spark
- 流式处理引擎:Flink
- 交互式处理引擎:Presto, Clickhouse, Doris
Presto是Facebook开源的查询分析引擎,在国内京东用的比较成熟。Presto数据处理能力到达PB级别,支持查询数据源有Hive、Kafka、Cassandra、Redis、Mongodb、SQL server等,在工作应用当中,Presto的查询性能比Hive要高40%以上。Presto的具体组成如下图所示:
主要的组成部分为:Coordinator+一个Discovery server+多个worker。三者的作用如下:
1、coodinator:用于解析查询sql,生成执行计划,并分发给worker执行。
2、discovery server:worker上线后,向discovery server注册。coodinator分发任务前,需要向discovery server

Presto是Facebook开源的高性能查询分析引擎,适用于PB级别的数据处理,支持多种数据源。它由Coordinator、Discovery server和多个worker组成,其中Coordinator负责解析SQL并生成执行计划,worker执行任务。Presto通过Connector支持多数据源,Catalog对应数据源的schema和数据。其查询流程包括构建查询计划、任务分发和数据读取。然而,Presto在查询容错、内存管理和并行查询方面存在挑战。
最低0.47元/天 解锁文章
1364

被折叠的 条评论
为什么被折叠?



