
hive
文章平均质量分 81
genghaihua
这个作者很懒,什么都没留下…
展开
-
hive 科学计数法类型的字符串转换为时间
select from_unixtime(cast((cast(action_time as decimal(13,0)))/1000 as int))原创 2019-03-14 14:41:11 · 1285 阅读 · 0 评论 -
hive 利用java反射实现网页url解码 urldecode
select reflect("java.net.URLDecoder", "decode", "%E4%B8%AD%E5%9B%BD", "UTF-8");原创 2019-03-11 20:04:43 · 2699 阅读 · 1 评论 -
java.lang.NullPointerException at org.apache.hadoop.hive.serde2.lazybinary.LazyBinaryHiveDecimal.in
问题是hive的数据类型转换,decimal无法直接转化为double,可以尝试转换成string,后面hive会自动隐式转换成对应类型。 Hive在需要的时候将会对numeric类型的数据进行隐式转换。比如我们对两个不同数据类型的数字进行比较,假如一个数据类型是INT型,另一个 是SMALLINT类型,那么SMALLINT类型的数据将会被隐式转换地转换为INT类型,这个到底和Java中的一...原创 2018-10-26 11:14:41 · 2738 阅读 · 0 评论 -
hive mapreduce split 合并
大体思路:1 先查找各个单节点,找出依次满足最大分割、最小节点分割,最后剩余数据,进入第二步2 查看单个机架, 找出依次满足最大分割、最小机架分割,最后剩余数据,进入第三步3 查找所有机架剩余数据,找出满足最大分割,最后剩余数据(小于最大分割),进入4步4 将剩下的数据做为一个数据块。 1).三个重要的属性:maxSplitSize:切片大小最大值。可通过属性 ...原创 2018-08-22 16:34:14 · 1454 阅读 · 0 评论 -
hive函数返回的数据类型,spark sql
内置函数Hive支持以下内置函数:返回类型 签名 描述 BIGINT round(double a) 返回BIGINT最近的double值。 BIGINT floor(double a) 返回最大BIGINT值等于或小于double。 BIGINT ceil(double a) 它返回最小BIGINT值等于或大于double。 ...转载 2018-07-26 11:26:02 · 4243 阅读 · 0 评论 -
Hive 正则匹配函数 regexp_extract
本文转载于https://www.cnblogs.com/skyEva/p/5175377.html,感谢作者分享1。regexp_extract语法: regexp_extract(string subject, string pattern, int index)返回值: string说明: 将字符串subject按照pattern正则表达式的规则拆分,返回index指定的字符。第...转载 2018-06-05 21:35:26 · 3760 阅读 · 0 评论 -
Hive tuning
一篇不错的hive调优shuffle mapreduce参数join(mapjoin bucketjoin) orc文件格式使用,可以跳过某些数据io.sort.mb 环形缓冲区mapper reducer个数skew数据倾斜hdfs复制因子和tez缓存的使用distribute by sort by 和cluster bydfs-client https:原创 2018-04-25 19:18:11 · 254 阅读 · 0 评论 -
hive左半连接
执行以下语句,左半连接用来代替in操作或者exists操作的select * from user left semi join job on user.id=job.user_id;结果如下该语句相当于如下语句select * from user where id in (select user_id from job);但是,h转载 2015-02-09 09:44:09 · 3324 阅读 · 0 评论 -
Hive UDAF开发
Hive进行UDAF开发,相对要比UDF复杂一些,不过也不是很难。请看一个例子package org.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;import org.apache.hadoop.hive.serde2.io.DoubleWritable; public转载 2015-02-04 11:25:59 · 1011 阅读 · 1 评论 -
Hive UDF开发
Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。Hive的UDF开发只需要重构UDF类的evaluate函数即可。例:package com.hrj.hive.udf;import org.apache.hadoop.hive.ql.exec.UDF;public class hell转载 2015-02-04 11:25:15 · 583 阅读 · 0 评论 -
Hive Tips
在Hive中,某些小技巧可以让我们的Job执行得更快,有时一点小小的改动就可以让性能得到大幅提升,这一点其实跟SQL差不多。首先,Hive != SQL,虽然二者的语法很像,但是Hive最终会被转化成MapReduce的代码去执行,所以数据库的优化原则基本上都不适用于 Hive。也正因如此,Hive实际上是用来做计算的,而不像数据库是用作存储的,当然数据库也有很多计算功能,但一般并不建议在转载 2015-01-28 13:34:33 · 521 阅读 · 0 评论 -
Hive几种数据导入方式
好久没写Hive的那些事了,今天开始写点吧。今天的话题是总结Hive的几种常见的数据导入方式,我总结为四种:(1)、从本地文件系统中导入数据到Hive表;(2)、从HDFS上导入数据到Hive表;(3)、从别的表中查询出相应的数据并导入到Hive表中;(4)、在创建表的时候通过从别的表中查询出相应的记录并插入到所创建的表中。我会对每一种数据的导入进行实际的操作,因为纯粹的文字让转载 2015-01-28 10:18:33 · 669 阅读 · 0 评论 -
Hive几种数据导出方式
今天我们再谈谈Hive中的几种不同的数据导出方式。可以根据导出的地方不一样,将这些方式分为三种:(1)、导出到本地文件系统;(2)、导出到HDFS中;(3)、导出到Hive的另一个表中。为了避免单纯的文字,我将一步一步地用命令进行说明。 一、导出到本地文件系统1 2hive> inser转载 2015-01-28 10:14:33 · 740 阅读 · 0 评论 -
JOIN操作及优化
OIN 类型JOIN 优化转载 2015-01-15 17:08:52 · 838 阅读 · 0 评论