
impala
丹江怒潮
这个作者很懒,什么都没留下…
展开
-
Impala invalidate metadata详细使用方法说明
前言Impala一直是我们各个业务使用的重点,但是在Impala的使用上感觉一直不是很成熟,比如说 invalidate metadata操作,到底什么时候该使用-r参数,什么时候不使用,什么时候可以用refresh代替,什么时候不可以,这一直是一个问题。因此有了这次的测试。这次的测试目的就是为了对Impala的元数据方面的使用进行一个彻底的测试,给出一个比较明确答复。在最大的成都转载 2017-07-06 10:49:49 · 802 阅读 · 0 评论 -
impala的原理架构介绍及应用场景
impala概述 由cloudera公司主导开发的大数据实时查询分析工具,宣称比原来基于MapReduce的HiveSQL查询速度提升3~90倍,且更加灵活易用。提供类SQL的查询语句,能够查询存储在Hadoop的HDFS和Hbase中的PB级大数据。查询速度快是其最大的卖点。简言之impala作为大数据实时查询分析工具,具有查询速度快,灵活性高,易整合,可伸缩性强等特点。转载 2017-08-08 10:11:46 · 711 阅读 · 0 评论 -
Impala的神奇指令「COMPUTE STATS」
项目迭代中用Impala逐步替换原有的Hive作为查询组件,速度有了脱胎换骨的飞跃。但在把原先按列存储的表转换成两个按行存储的表之后,联表查询的表现不那么给力了(原先对Hive的十倍速度优势变成了两倍)。考虑到项目转用Impala是我的提议,调整存储结构也是我的提议,这个结果确实是个让我丢面子的事情,于是挽起袖子找优化查询的方案。优化前Query: select count(a.s转载 2017-08-18 15:40:13 · 2335 阅读 · 0 评论 -
Impala优化基本方案
本文源自cloudera官网上的Impala文档,原名为《Impala Performance Guidelines and Best Practices》。主要介绍了为了提升impala性能应该考虑的一些事情,这些条目算是对于性能提升最基本的约束了,条目分别如下:1、选择合适的文件存储格式,既然使用impala,无非就是为了一个目的:性能好/资源消耗少,Impala为了做到通转载 2017-08-21 10:28:25 · 537 阅读 · 0 评论