presto简单介绍
presto是一个分布式的sql交互式查询引擎。可以达到hive查询效率的5到10倍。支持多种数据源的秒级查询。
presto是基于内存查询的,这也是它为什么查询快的原因。除了基于内存,presto还使用了
-
- 向量计算,
- 动态编译执⾏计划
- 优化的ORC和Parquet Reader技术
从而优化查询的速度。
-
- presto和hive的对比
hive和presto是针对不同使用场景的。presto虽然查询很快,但是也不是适用于所有的查询场景。
比如做多张大表的关联查询,
由于presto是基于内存查询的。做大表关联查询时,数据要加载到内存中,假如使用presto查询超过了几分钟才会有返回。
且严重影响集群的性能。这就违背了presto交互式查询的初衷,交互式就是要做到近实时查询与返回。
所以,presto不适合做多张大表的join操作或者ETL操作。这种情况就该使用hive了。
另外,hive只能做hdfs查询(es等需要插件支持),而presto支持了mysql,pg,kafka,redis等。
总之,presto是支持多数据源的查询利器。
- presto和hive的对比