
hive
奇妙探险家
浮光跃金,静影沉璧
展开
-
hive安装笔记
安装教程网页:http://blog.youkuaiyun.com/an342647823/article/details/46048403 安装mysql 1/创建数据库和用户 create database hive; grant all on hive.* to hive@'%' identified by 'hive'; grant all on hive.* to hiv原创 2017-02-04 23:53:51 · 294 阅读 · 0 评论 -
mysql、hive常用查询
1、分组汇总并累计,累计问题都要使用不等条件的连接解决 -- 分组汇总并累计hive版(因为hive不支持不等条件的关联,且不在分组键的列必须聚合)select s2.nam,s2.mon,max(s2.sum1),SUM(s3.num) from(SELECT s1.nam,s1.mon,SUM(num) sum1 FROM xzq_temp s1 GROUP BY s1.nam,s1.mon...原创 2018-07-11 10:20:38 · 378 阅读 · 0 评论 -
hive错误记录
1、 org.apache.hadoop.hive.metastore.api.MetaException: Exception thrown when executing query : SELECT DISTINCT 'org.apache.hadoop.hive.metastore.model.MPartition' AS `NUCLEUS_TYPE`,`A0`.`CREATE_TIME`,...原创 2018-08-11 19:24:21 · 2768 阅读 · 0 评论 -
hive-site.xml选项解释
hive的配置: hive.ddl.output.format:hive的ddl语句的输出格式,默认是text,纯文本,还有json格式,这个是0.90以后才出的新配置; hive.exec.script.wrapper:hive调用脚本时的包装器,默认是null,如果设置为python的话,那么在做脚本调用操作时语句会变为python <script command>,null的话...转载 2018-11-28 10:26:50 · 1061 阅读 · 0 评论 -
数据倾斜
产生原因:shuffle过程中部分key占比过大,导致计算集中到个别reducer或者executor上,拖慢了整体计算时间。 解决方法: 1、过滤少数导致倾斜的key:shuffle前将这些key排除掉,不对其进行计算。(hive的where字句,spark的filter) 2、提高shuffle操作的并行度:增加reducer数目、spark中给shuffle算子传入并行度参数,旨在减少...原创 2019-03-16 19:08:14 · 195 阅读 · 0 评论 -
HIVE常用函数
常用函数====================================================================== 不等于 <> != 空值 IS NULL 昨日日期:select date_add(from_unixtime(unix_timestamp(),'yyyy-MM-dd'),-1); 日期相减:select datediff('2019...原创 2019-03-21 01:55:59 · 870 阅读 · 0 评论 -
hiveUDF、HQL解析为MR
HQL转化为MapReduce的过程======================================================== 了解了MapReduce实现SQL基本操作之后,我们来看看Hive是如何将SQL转化为MapReduce任务的,整个编译过程分为六个阶段: Antlr定义SQL的语法规则,完成SQL词法,语法解析,将SQL转化为抽象语法树AST Tree 遍历A...原创 2019-03-23 13:56:33 · 617 阅读 · 0 评论 -
hive数据压缩
hive表通常压缩为保存为orc文件,默认压缩方法为zlib(io.compression.codecs=org.apache.hadoop.io.compress.DefaultCodec),压缩比约为11% -- 创建orc压缩表 CREATE TABLE `zxdm_dim.d_acct_info_backup_orc`( `acct_id` string, `acct_name...原创 2019-04-06 18:18:36 · 392 阅读 · 0 评论 -
hive查询案例
按一列分组按另一列排序 直接使用row_number即可达到分组排序效果 select id,up,row_number() over(partition by substring(id,1,2) order by up) from temp.setup_cleanup ; id up row_number 13760778710 120 ...原创 2019-04-07 13:05:07 · 390 阅读 · 0 评论