
SQL on hadoop
文章平均质量分 89
Xlucas
做自己,做一个最普通的分享者
展开
-
TEZ 0.7和0.8的编译
在tez编译过程中会遇到各种各样的问题,如果你是编译0.5的,因为0.5中没有tez-ui所以编译过程中基本没有什么问题, 先准备环境 1、linux 环境,我的是centos6.4 32位的 2、可编译的maven环境 我这边用得maven3.3.9的环境 3、protoc的版本是2.5.0 4、需要安装nodejs npm bower git protoc版本 [root@loc原创 2016-08-15 23:57:07 · 1408 阅读 · 2 评论 -
TEZ的安装以及测试
TEZ 0.5以后得版本和hive0.13不兼容1、先解压编译好的tez包 tar -xvf tez-0.7.0.tar.gz -C /home/hadoop/tez 2、在hdfs上面创建一个目录,并且将tez包上传到hdfs上[hadoop@master tez]$ hadoop fs -mkdir /tez16/04/04 06:47:53 WARN util.NativeCodeLoa原创 2016-08-16 00:02:11 · 1820 阅读 · 0 评论 -
Drill的安装
1、解压[root@master opt]# tar -zxvf apache-drill-1.7.0.tar.gz [root@master opt]# lsapache-drill-1.7.0 apache-drill-1.7.0.tar.gz hadoop-2.6.22.启动[hadoop@master bin]$ ./drill-embedded Invalid initial h原创 2016-10-01 00:11:36 · 1575 阅读 · 0 评论 -
聊聊Greenplum的那些事
开卷有益——作者的话 有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,总有说不出的万千感慨。笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员工加入Greenplum团队(当时的工牌是“005”,哈哈),记得当时看了一眼Greenplum的架构(嗯,就是现在大家耳熟能详的那个好多个X86框框的图),就转载 2016-12-11 23:42:24 · 29426 阅读 · 8 评论 -
sql on hadoop方案(1)
什么是实时分析(在线查询)系统? 大数据领域里面,实时分析(在线查询)系统是最常见的一种场景,通常用于客户投诉处理,实时数据分析,在线查询等等过。因为是查询应用,通常有以下特点: a. 时延低(秒级别)。 b. 查询条件复杂(多个维度,维度不固定),有简单(带有ID)。 c. 查询范围大(通常查询表记录在几十亿级别)。 d. 返回结果数小(几十条甚至几千条)。 e. 并发数要求高(几百上转载 2017-02-09 21:11:17 · 931 阅读 · 0 评论 -
sql on hadoop方案(2)
8个值得关注的SQL-on-Hadoop框架 数据的操作语言是SQL,因此很多工具的开发目标自然就是能够在Hadoop上使用SQL。这些工具有些只是在MapReduce之上做了简单的包装,有些则是在HDFS之上实现了完整的数据仓库,而有些则介于这两者之间。这样的工具有很多,来自于Shoutlet的软件开发工程师Matthew Rathbone最近发表了一篇文章,他列举了一些常用的工具并对各个工具的转载 2017-02-09 21:14:08 · 1046 阅读 · 0 评论 -
sql on hadoop方案(3)
开源大数据查询分析引擎现状大数据查询分析是云计算中核心问题之一,自从Google在2006年之前的几篇论文奠定云计算领域基础,尤其是GFS、Map-Reduce、 Bigtable被称为云计算底层技术三大基石。GFS、Map-Reduce技术直接支持了Apache Hadoop项目的诞生。Bigtable和Amazon Dynamo直接催生了NoSQL这个崭新的数据库领域,撼动了RDBMS在商用数据转载 2017-02-09 21:21:10 · 501 阅读 · 0 评论 -
sql on hadoop方案(4)
一)选型:Shib+Presto 应用场景:即席查询(Ad-hoc Query) 1.1.即席查询的目标 使用者是产品/运营/销售运营的数据分析师; 要求数据分析师掌握查询SQL查询脚本编写技巧,掌握不同业务的数据存储在不同的数据集市里; 不管他们的计算任务是提交给 数据库 还是 Hadoop,计算时间都可能会很长,不可能在线等待; 所以, 使用者提交了一个计算任务(PIG/SQL/H转载 2017-02-09 21:24:11 · 687 阅读 · 0 评论 -
sql on hadoop方案(5)
对于数据分析师来说,SQL是主要的语言。 Hive为Hadoop提供了支持SQL运行的能力,可是目前Hive运行速度达不到实时要求。这是因为Hive将SQL翻译成一个或多个MapReduce任务,而MapReduce原本是大数据批处理计算框架,并不适应实时数据分析的速度要求。现在有两种思路去提高SQL在大数据平台上的执行速度: 1. 用一种更快的SQL执行引擎取代MapReduce。转载 2017-02-09 21:27:20 · 631 阅读 · 0 评论