
Hive
Synchronized
spark and hadoop user
展开
-
基于hadoop集群的hive 安装(mysql,derby)
基于hadoop集群的hive安装步骤 ----嵌入式derby 模式 安装环境 hadoop已经安装结束, mysql已经安装结束。 hive是安装在集群中的主节点上(hostname:node0) hadoop 版本号:hadoop-0.23.5 hive版本号: hive-0.8.1 derby版本号:db-derby-10.9.1.0 mysq转载 2013-08-29 11:40:00 · 949 阅读 · 0 评论 -
Orcfile文件格式解析(2)
上篇文章从整体介绍了Orcfile的存储格式,接下来重点介绍下Orc里用到的几种编码格式: 字典编码:用于String类型的字段 Run-Length编码:用于int,long,short等类型的编码 Bit编码:可以用于各种数据类型 1,字典编码: 对于String类型的每个字段分别保存一个字典,记录每个值在字典中的位置,保存转载 2014-09-04 17:18:39 · 1313 阅读 · 0 评论 -
Rank() over()的用法
Rank() over()的用法 1,2,2,4,5,6.。。。。这是rank()的形式 1,2,2,3,4,5,。。。。这是dense_rank()的形式 1,2,3,4,5,6.。。。。。这是row_number()涵数形式 创建一个test表,并插入6条数据。 CREATE TABLE test (转载 2014-08-11 19:57:55 · 764 阅读 · 0 评论 -
hive merge小文件
hive merge小文件 当Hive输入由很多个小文件组成,由于每个小文件都会启动一个map任务,如果文件过小,以至于map任务启动和初始化的时间大于逻辑处理的时间,会造成资源浪费,甚至OOM。 为此,当我们启动一个任务,发现输入数据量小但任务数量多时,需要注意在Map前端进行输入合并 当然,在我们向一个表写数据时,也需要注意输出文件大小 1. Map输入合并小文件 对应参转载 2014-08-11 19:56:35 · 567 阅读 · 0 评论 -
Lateral View语法
Lateral View语法 lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)* fromClause: FROM baseTable (lateralView)* 描述 lateral view用于和split, explode等UDTF一起使用,它能转载 2014-08-11 19:53:22 · 812 阅读 · 0 评论 -
Orcfile文件格式解析(1)
Orcfile(Optimized Row Columnar)是hive 0.11版里引入的新的存储格式,是对之前的RCFile存储格式的优化。写这个的哥们来自于HortonWorks,代码写的很不错,比之前的rcfile强多了(据说rcfile是个中科院的童鞋跑去facebook写的,看来中国的计算机教育水平还是有限啊。。。囧,跑题了) 先介绍下Orc的文件格式,截一张官方的图:转载 2014-09-04 16:53:34 · 1289 阅读 · 0 评论