
impala
文章平均质量分 84
教练_我要踢球
好好想一下,认真码代码~
展开
-
Impala负载均衡方案
概述Impala分为是三个组件,statestored/catalogd和impalad,其中statestored和catalogd是单点的,没有高可用的需求,因为这两个实例是无状态的,本身不存储任何数据,例如catalogd的数据存储在第三方数据库(例如mysql中),statestore的数据全都存储在内存中,可以通过简单的主备的方式来实现高可用,本文最后会提到。正常情况下只有master提供原创 2016-12-22 22:06:01 · 8092 阅读 · 3 评论 -
Impala高性能探秘之HDFS数据访问
Impala是一个高性能的OLAP引擎,Impala本身只是一个OLAP-SQL引擎,它访问的数据存储在第三方引擎中,第三方引擎包括HDFS、Hbase、kudu。对于HDFS上的数据,Impala支持多种文件格式,目前可以访问Parquet、TEXT、avro、sequence file等。对于HDFS文件格式,Impala不支持更新操作,这主要限制于HDFS对于更新操作的支持比较弱。本文主要介绍原创 2017-07-11 20:08:19 · 9011 阅读 · 0 评论 -
Impala查询详解第一篇——简介
Impala的定位是一种新型的MPP查询引擎,但是它又不是典型的MPP类型的SQL引擎,提到MPP数据库首先想到的可能是GreenPlum,它的每一个节点完全独立,节点直接不共享数据,节点之间的信息传递全都通过网络实现。而Impala可以说是一个MPP计算引擎,它需要处理的数据存储在HDFS、Hbase或者Kudu之上,这些存储引擎都是独立于Impala的,可以称之为第三方存储引擎,Impala使用原创 2017-07-10 16:09:01 · 6964 阅读 · 0 评论 -
谈谈分布式Aggregation
聚合操作(Aggregation)是OLAP分析查询中最常见的操作之一,可以说它是数据分析查询的基石,它对应这SQL中的GROUP BY子句,OLAP中的上卷下钻操作无非就是对于GROUP BY和WHERE条件的改变,如何能够高效的实现聚合是决定OLAP分析性能的最重要因素之一(另外几个因素包括如何减少SCAN记录数、如何高效实现JOIN等)。原创 2017-05-21 12:29:36 · 6586 阅读 · 1 评论 -
Impala中的invalidate metadata和refresh
前言Impala采用了比较奇葩的多个impalad同时提供服务的方式,并且它会由catalogd缓存全部元数据,再通过statestored完成每一次的元数据的更新到impalad节点上,Impala集群会缓存全部的元数据,这种缓存机制就导致通过其他手段更新元数据或者数据对于Impala是无感知的,例如通过hive建表,直接拷贝新的数据到HDFS上等,Impala提供了两种机制来实现元数据的更新,分原创 2017-05-27 12:03:57 · 39913 阅读 · 1 评论 -
Impala源代码学习序
带着问题看源码,本文主要针对阅读impala源代码提出的一些针对性的问题,希望能够跟着这些问题学习impala源代码原创 2017-01-15 13:41:05 · 1552 阅读 · 0 评论 -
Impala负载均衡方案——zookeeper
由来之前根据Impala官方的文档尝试使用haproxy实现impalad节点的负载均衡,但是这种方案存在一些弊端,例如haproxy本身也是单点的,虽然可以通过keeplived实现haproxy的高可用,但是这样的配置难免有点太重了,实现impala负载均衡的同时还需要多部署两个组件,增大了系统运维的复杂度。在大数据生态圈中zookeeper是一个必不可少的自身具有高可用保证的组件,本文探讨如何原创 2016-12-28 20:24:23 · 4420 阅读 · 0 评论 -
大数据时代快速SQL引擎-Impala
背景随着大数据时代的到来,Hadoop在过去几年以接近统治性的方式包揽的ETL和数据分析查询的工作,大家也无意间的想往大数据方向靠拢,即使每天数据也就几十、几百M也要放到Hadoop上作分析,只会适得其反,但是当面对真正的Big Data的时候,Hadoop就会暴露出它对于数据分析查询支持的弱点。甚至出现《MapReduce: 一个巨大的倒退》此类极端的吐槽,这也怪不得Hadoop,毕竟它的设计就是原创 2016-09-04 13:20:41 · 37393 阅读 · 0 评论 -
Impala优化基本方案
Impala性能的调优是一个不断调整的过程,这里介绍了一些基本你的准则,当然对于具体的性能问题还是要借住实际的工具分析。原创 2016-09-21 11:40:00 · 9343 阅读 · 0 评论 -
自己动手写Impala UDF
概述出于对可扩展性和性能的考虑,UDF已变成大数据生态圈查询引擎的必备功能之一,无论是Calcite、Hive、Impala都对其进行支持,但是UDF的支持有利也有弊,好处在于它提供了对某些用户独有需求的支持,例如某些产品需要将表中的某字段使用自定义的方式解析成可读字段,例如需要实现特殊的聚合函数;它的弊端在于它对用户开发,这样对于恶意的用户可能执行非正常的逻辑.原创 2016-10-06 23:29:11 · 9956 阅读 · 3 评论 -
Impala部署、权限、资源隔离杂谈
概述最近一直在倒腾Impala,公司内部也属于刚刚部署使用,初次体验感觉性能还是比较好的(可能是使用Hive过多的原因),并且Impala还可以支持Kudu引擎,这个目前看上去是实时离线统一的较好解决方案,因此考虑在公司内部推广使用,但是一旦给多个产品部署、使用就需要考虑如下的几个问题:部署方式:它决定了以后的扩展性和运维复杂度等。权限隔离:如何做到用户的数据不被他授权的用户查询。资源隔离:用原创 2016-10-07 18:19:02 · 7847 阅读 · 1 评论 -
Impala客户端访问实例
Impala作为一个SQL引擎,必然提供了Jdbc访问接口,特殊的是Impala完全兼容hiveserver2的接口,所以我们可以使用的客户端包括:beelineimpala-shellzeppelinhue前两种作为shell方式提供,其中beeline是hive的jdbc客户端(类似于mysql客户端),使用!connect的方式连接服务器,url的结构为jdbc:hive2://ho原创 2016-10-21 16:57:22 · 11357 阅读 · 1 评论 -
Impala权限管理机制
在Impala中,权限管理的作用主要是确定某个用户是否有权限访问某些资源,用户对于这些资源具有哪种访问权限等,这里涉及到三个概念:用户,资源和权限。对于Impala 1.1之后的版本,可以直接集成Apache Sentry服务来实现Impala的权限管理,由于Impala可以和hive共享元数据库,包括权限机制。用户在不开启权限认证的impala集群中,没有用户的概念存在了,所有访问Impala原创 2016-12-14 15:03:55 · 19328 阅读 · 0 评论 -
Impala高性能探秘之Runtime Filter
前言书接上文,如果说HDFS的数据访问层各个BigData SQL Engine做的都大同小异的话,那么Runtime Filter(下文简称RF)则是Impala比较独特的”黑科技”了,在深入学习Impala之前对于这个名词比较陌生,但它绝对是Impala性能提升的一大法宝,我们将试图围绕着如下几个问题展开以详细介绍Runtime Filter的细节。什么是Runtime FilterRunt原创 2017-08-10 20:26:46 · 5094 阅读 · 0 评论