
hive-sql on hadoop技术
文章平均质量分 80
hive-sql on hadoop技术
码太狼
这个作者很懒,什么都没留下…
展开
-
hive的orc格式详解
ORC(The Optimized Row Columnar),被设计用来给hive提供更高效的数据存储格式。和其它数据格式相比(parquest、text、rc),orc在读、写、处理数据上有着更优的表现。ORC是一种文件结构,排列组织存储数据的一种结构,而非一种数据压缩格式,就像hbase索引数据用B+树形式来存储数据。orc是列式存储结构,(关系型数据库大多用的是行式存储),由于列式原创 2018-02-03 11:32:03 · 12266 阅读 · 0 评论 -
hive对接hbase(二)-hive中操作hbase
hbase的查询比较简单,总得来看就是只有rowkey的定位。 在hbase的查询中可以使用scan来定位rowkey,使用filter来定位具体要查询的某个字段。在hive对接hbase后,就可以使用sql对hbase进行操作,那在hive中又能对hbase做哪些操作呢,哪些操作是在hbase中进行,哪些是在hive中进行。如果不清楚这些问题,在实际的使用过程当中,我们就没办法对查询效率以原创 2018-02-01 20:57:03 · 3179 阅读 · 0 评论 -
hive对接hbase(一)-配置和使用例子
1.配置配置hive-site.xml,除了增加hive-hbase-handler-xxx.jar之外,在需要进行一些mapreduce计算的时候计算节点还需要hbase的jar来访问hbase,还要增加其它hbase访问的jar。property> name>hive.aux.jars.pathname> value>file:/opt/hive/lib/hive-hb原创 2018-01-17 14:12:01 · 4623 阅读 · 0 评论 -
hive对接phoenix
1.配置解压phoenix程序包,拷贝phoenix-xx-HBase-xx-hive.jar到hive的lib中 并配置hive-site.xml,增加phoenix-xx-HBase-xx-hive.japroperty> name>hive.aux.jars.pathname> value>$HIVE_HOME/lib/phoenix-xx-HBase-xx-hiv原创 2018-01-17 09:42:18 · 8209 阅读 · 11 评论 -
hive源代码开发(一)--开发调试环境搭建
需要阅读hive源代码了解hive运行原理 修改hive部分代码来达到业务需求 可以将hive源代码下载下来进行编译运行,在本地进行调试。1.环境准备开发需要在linux环境下 可以在本机上装一个ubuntu操作系统或者一个虚拟机都可以。有条件的同学可以在macbook上开发也可以linux版本的eclipse2.开发环境hive2.3jdk 1.7mav原创 2018-01-15 15:43:03 · 7107 阅读 · 1 评论 -
hive on spark安装(hive2.3 spark2.1)
简介之前有写过hive on spark的一个文档,hive版本为2.0,spark版本为1.5。spark升级到2.0后,性能有所提升,程序文件的编排也和之前不一样,这里再更新一个最新的部署方式。 spark2.0引入了spark session的概念,创建一个spark任务和之前也不一样,之前版本的hive并不能兼容spark2.0,所以推荐使用hive2.3以后的版本。安装步骤可参考官网ht原创 2017-11-01 18:18:08 · 19318 阅读 · 7 评论 -
hive on spark入门安装(hive2.0、spark1.5)
简介 hive on hive是基于hadoop的数据仓库,hdfs为hive存储空间,mapreduce为hive的sql计算引擎。但是由于mapreduce很多计算过程都要经过硬盘读写等劣势,和spark等计算引擎相比,无论是计算速度,还是计算灵活度上都有很多劣势,这也导致了hive on mapreduce计算速度并不是令人很满意。本篇来讲下hive on spark,将hive的计算引擎替换为spark,速度原创 2017-02-09 10:24:08 · 8925 阅读 · 0 评论 -
hive2安装
简介hive是基于hadoop的hdfs和mapreduce的一个数据仓库。hdfs是hive的存储,mapreduce是hive的sql执行引擎。hive可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能。可以理解hive为一个sql解析器来接收发过来的任务,并将任务翻译成mapreduce任务去执行sql查询。开发者可以通过hive的jdbc、jdbc、jdbc,重要的事情说三原创 2017-02-09 10:18:00 · 5362 阅读 · 0 评论