presto原理

最新推荐文章于 2024-02-28 17:48:47 发布

魔数666

最新推荐文章于 2024-02-28 17:48:47 发布

阅读量1.2k

点赞数

文章标签： big data sql olap

本文链接：https://blog.youkuaiyun.com/weixin_49761581/article/details/120615132

版权

presto 背景

MapReduce不能满足大数据快速实时adhoc查询计算的性能要求，Facebook2012年开发，2013年开源

基于内存的并行计算，Facebook推出的分布式SQL交互式查询引擎多个节点管道式执行支持任意数据源数据规模GB~PB 是一种Massively parallel processing（mpp）(大规模并行处理)模型
数据规模PB 不是把PB数据放到内存，只是在计算中拿出一部分放在内存、计算、抛出、再拿

presto 的应用场景

ETL: Presto 支持多种数据源,通过sql将一个数据源中的数据导入到另一个数据源中
实时计算: Presto 性能优越,是实时查询工具上的一个重要的选择
Ad-Hoc 用户根据自己的需求随时的调整和选择查询条件,presto根据用户的查询条件返回查询结果并生成报表
实时数据流分析:Presto -Kafka 使用sql语句对kafka中的数据流进行清洗,分析和计算

presto的优点

多数据源、混合计算支持：支持众多常见的数据源，并且可以进行混合计算分析；
大数据：完全的内存计算，支持的数据量完全取决于集群内存大小。他不像SparkSQL可以配置把溢出的数据持久化到磁盘，Presto是完完全全的内存计算；
高性能：低延迟高并发的内存计算引擎，相比Hive（无论MR、Tez、Spark执行引擎）、Impala 执行效率要高很多。根据Facebook和京东的测试报告，至少提升10倍以上；
支持ANSI SQL：这点不像Hive、SparkSQL都是以HQL为基础（方言），Presto是标准的SQL。用户可以使用标准SQL进行数据查询和分析计算；
扩展性：有众多 SPI 扩展点支持，开发人员可编写UDF、UDTF。甚至可以实现自定义的Connector，实现索引下推，借助外置的索引能力，实现特殊场景下的 MPP；
流水线：Presto 是基于PipeLine进行设计，在大量数据计算过程中，终端用户(Driver)无需等到所有数据计算完成才能看到结果。一旦开始计算就可立即产生一部分结果返回，后续的计算结果会以多个Page返回给终端用户（Driver）。