
hive
xyz2011
大数据从业者,赶上了时代的红利,希望自己的一些经验对大家有一些帮助
展开
-
hive的order by应用
hive中的order by也是对一个结果集合进行排序,但是和关系型数据库又所有不同。这不同的地方也是两者在底层架构区别的体现。hive的参数hive.mapred.mode是控制hive执行mapred的方式的,有两个选项:strict和nonstrict,默认值是nonstrict。这个两个值对order by的执行有着很大的影响。测试用例hive> select * from ...原创 2011-08-23 16:56:41 · 213 阅读 · 0 评论 -
hive的sort by应用
在hive中不光有order by操作,还有个sort by操作。两者执行的都是排序的操作,但有存在很大的不同。还是用上次order by的例子来说明。测试用例hive> select * from test09;OK100 tom200 mary300 kate400 timTime taken: 0.061 secondshive> select * from test09...原创 2011-08-23 17:02:38 · 477 阅读 · 0 评论 -
hive的distribute by应用
hive中的distribute by是控制在map端如何拆分数据给reduce端的。hive会根据distribute by后面列,根据reduce的个数进行数据分发,默认是采用hash算法。对于distribute by进行测试,一定要分配多reduce进行处理,否则无法看到distribute by的效果。hive> select * from test09;OK100 tom...原创 2011-08-23 17:08:59 · 781 阅读 · 0 评论 -
hive中UDF和UDAF使用说明
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/St...原创 2011-08-23 23:04:54 · 623 阅读 · 0 评论 -
hive中配置使用derby.
hive-default.xml<property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby,create为true表示自动创建数...2011-08-23 23:20:56 · 331 阅读 · 0 评论 -
hive中partition如何使用
网上有篇关于hive的partition的使用讲解的比较好,转载了:一、背景1、在Hive Select查询中一般会扫描整个表内容,会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据,因此建表时引入了partition概念。2、分区表指的是在创建表时指定的partition的分区空间。3、如果需要创建有分区的表,需要在create表的时候调用可选参数partitio...原创 2011-08-23 23:35:38 · 1137 阅读 · 0 评论 -
hive执行查询出现:Error while making MR scratch directory - check filesystem解决办法
进入 $hadoop_home vi conf/core-site.xml之前的配置是hdfs://192.168.10.145:9060但是在hive命令行下面查询一直出错:错误信息如下:FAILED: Hive Internal Error: java.lang.RuntimeException(Error while making MR scratch directory - c...2011-07-07 15:34:28 · 293 阅读 · 0 评论