目录
参考Impala-中文文档-http://www.dba.cn/book/impala/IMPALAJiaoCheng/IMPALAGaiShu.html
什么是Impala:
Impala 是用于存储在Hadoop集群中的大量数据的MPP(大规模并行处理)sql查询引擎。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体现),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。
不同于Hive,Impala不基于MapReduce,它提供了一个分布式架构,他负责在同一台机器上运行的查询执行的所有方面。因此它减少了使用MapReduce的延迟,这使得Impala比Hive快。
Impala的优点:
以下是Cloudera Impala的一些值得注意的优点的列表。
-
使用impala,您可以使用传统的SQL知识以极快的速度处理存储在HDFS中的数据。
-
由于在数据驻留(在Hadoop集群上)时执行数据处理,因此在使用Impala时,不需要对存储在Hadoop上的数据进行数据转换和数据移动。
-
使用Impala,您可以访问存储在HDFS,HBase和Amazon s3中的数据,而无需了解Java(MapReduce作业)。您可以使用SQL查询的基本概念访问它们。
-
为了在业务工具中写入查询,数据必须经历复杂的提取 - 变换负载(ETL)周期。但是,使用Impala,此过程缩短了。加载和重组的耗时阶段通过新技术克服,如探索性数据分析和数据发现,使过程更快。
-
Impala正在率先使用Parquet文件格式,这是一种针对数据仓库场景中典型的大规模查询进行优化的柱状存储布局。
Impala的功能:
-支持内存数据处理,访问hdfs文件,无需移动
--类SQL查询
--更快
-支持各种(多种)文件格式。
与关系型数据库相比:
-无法更新和删除单个记录
-不支持事务
-不支持索引
缺点:
不提供对序列化和反序列化的支持。
只能读取文本文件,不能读取自定义的二进制文件
每当新的记录/文件被添加到HDFS中的数据目录时,该表需要被刷新。
--写点匆忙,很烂-之后再补充。