
大数据技术-Impala
HuFeiHu-Blog
知无涯者,虚心若愚,求知若饥,勇者天佑!
展开
-
Percolator 中的分布式事务
Percolator 中的分布式事务下一代大规模增量索引平台 – Percolator 简介继google的3大基石GFS, MapReduce,BigTables之后,Google在10月份osdi会议上公布了论文《Large-scale Incremental Processing Using Distributed Transa转载 2017-08-03 16:35:13 · 2090 阅读 · 0 评论 -
Impala 5、Impala 性能优化
• 执行计划 – 查询sql执行之前,先对该sql做一个分析,列出需要完成这一项查询的详细方案 – 命令:explain sql、profile 要点: • 1、SQL优化,使用之前调用执行计划 • 2、选择合适的文件格式进行存储 • 3、避免产生很多小文件(如果有其他程序产生的小文件,可以使用中间表) • 4、使用合适的分区技术,根据分区粒转载 2017-08-03 22:16:56 · 470 阅读 · 0 评论 -
Impala 4、Impala JDBC
配置: – impala.driver=org.apache.hive.jdbc.HiveDriver – impala.url=jdbc:hive2://node2:21050/;auth=noSasl – impala.username= – impala.password=• 尽量使用PreparedStatement执行SQL语句: – 1.性能上Prep转载 2017-08-03 22:16:22 · 3967 阅读 · 0 评论 -
Impala 3、Impala、Hbase整合
Impala可以通过Hive外部表方式和HBase进行整合,步骤如下: • 步骤1:创建hbase 表,向表中添加数据 123create 'test_info', 'info'put 'test_info','1','info:name','zhangsan’put 'test_info','转载 2017-08-03 22:15:46 · 768 阅读 · 0 评论 -
Impala 1、Impala理论
1、Impala简介 • Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 • 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 • 是CDH平台首选的PB级大数据实时查询分析引擎 官网:http://www.cloudera.com/products/apache-hadoop/impala.转载 2017-08-03 22:14:41 · 311 阅读 · 0 评论 -
Impala 2、Impala Shell 和 Impala SQL
1、Impala 外部 Shell Impala外部Shell 就是不进入Impala内部,直接执行的ImpalaShell 例如通过外部Shell查看Impala帮助可以使用: $ impala-shell -h 这样就可以查看了; 再例如显示一个SQL语句的执行计划: $ impala-shell -p select count(*) from t_stu 下面是转载 2017-08-03 22:14:03 · 1349 阅读 · 0 评论 -
Impala架构和工作原理
原文地址:http://blog.youkuaiyun.com/niuxinzan/article/details/239989011. Impala架构 Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具(实时SQL查询引擎Impala),Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库转载 2017-08-03 20:12:34 · 1425 阅读 · 0 评论 -
Hadoop RCFile存储格式详解(源码分析、代码示例)
RCFile RCFile全称Record Columnar File,列式记录文件,是一种类似于SequenceFile的键值对(Key/Value Pairs)数据文件。 关键词:Record、Columnar、Key、Value。 RCFile的优势在哪里?适用于什么场景?为了让大家有一个感性的认识,我们来看一个例子。 假设我们有这样一张9行3列的Hive数据转载 2017-08-03 20:08:26 · 894 阅读 · 0 评论 -
SQL数据分析概览——Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto+druid
根据 O’Reilly 2016年数据科学薪资调查显示,SQL 是数据科学领域使用最广泛的语言。大部分项目都需要一些SQL 操作,甚至有一些只需要SQL。本文涵盖了6个开源领导者:Hive、Impala、Spark SQL、Drill、HAWQ 以及Presto,还加上Calcite、Kylin、Phoenix、Tajo 和Trafodion。转载 2017-08-03 16:58:23 · 1363 阅读 · 0 评论 -
Percolator 中的分布式事务
Percolator 中的分布式事务Percolator 对外提供两个主要的功能, 一个是分布式事务, 另外一个是 observers, 这里简单介绍一下 Percolator 中分布式事务的实现方法. 以下内容都出自对 google 论文 Large-scale Incremental Processing Using Distributed Transactions and Not转载 2017-08-03 16:35:42 · 620 阅读 · 0 评论 -
资源list:Github上关于大数据的开源项目、论文等合集
Awesome Big DataA curated list of awesome big data frameworks, resources and other awesomeness. Inspired byawesome-php, awesome-python, awesome-ruby, hadoopecosystemtable & big-data.Your contr...转载 2018-10-15 20:58:31 · 1532 阅读 · 0 评论