
Impala
文章平均质量分 72
富兰克林008
支撑系统运维。
展开
-
使用 hadoop组件 作为 ETL 或 ELT 工具
觉得,数据量很大的情况下,确实可以使用hadoop的组件来做ETL,hdfs存储全部的原始数据,需要的时候通过Hive,sparkSQL或者Impala查询。前提就是先建议Hive外部表的metastore,然后供sparkSQL和Impala访问。原创 2015-12-16 12:34:38 · 3330 阅读 · 0 评论 -
Impala,Hive,SparkSQL数据清洗后对后续查询的影响比较
Impala,Hive,SparkSQL数据清洗后对手续查询的影响比较SparkSQL和Impala执行的时间会比较快,Hive明显慢很多,但是这里比较不是执行单次查询效率,而是三种方式清洗后数据产生结果小文件对后续使用的影响。首先准备好2000万表记录,作为外部表建好。然后把出生日期星座划分,结果生成表格存放。三种方式存放3个不同表格。####################原创 2015-12-20 15:44:25 · 6091 阅读 · 0 评论